考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

请回答下列非监督学习的算法问题(3)K-means聚类分析中需要做变量标准化的原因()
A. 求长度
B. 求面积
C. 求距离
D. 求宽度
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

K-means聚类本质上是一种基于欧式距离度量的数据划分方法,均值和方差大的 维度对数据的聚类结果会产生决定性的影响,所以未做标准化处理的数据无法直接参与运算 和比较。所以答案为C。

正确答案是C: 求距离。

专业分析:
K-means聚类是一种基于距离的聚类算法,其核心思想是通过迭代优化,使得每个数据点到其所属簇中心的距离最小化。由于距离计算在K-means算法中至关重要,因此变量的尺度对结果有很大的影响。

在实际数据集中,不同变量可能具有不同的量纲(例如,一个变量的取值范围是0-1,另一个变量的取值范围是0-1000)。如果不对变量进行标准化,量纲较大的变量在距离计算中会占据主导地位,从而影响聚类结果。因此,标准化处理(通常是将每个变量转换为均值为0、标准差为1的标准正态分布)可以消除不同量纲的影响,使每个变量在距离计算中具有相同的权重,从而得到更合理的聚类结果。

综上所述,K-means聚类分析中需要做变量标准化的原因是为了求距离。