考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

请回答下列非监督学习的算法问题:(3)K-means聚类分析中需要做变量标准化的原因()
A. 求长度
B. 求面积
C. 求距离
D. 求宽度
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

K-means聚类本质上是一种基于欧式距离度量的数据划分方法,均值和方差大的 维度对数据的聚类结果会产生决定性的影响,所以未做标准化处理的数据无法直接参与运算 和比较。所以答案为C。

正确答案是:C: 求距离

专业分析:
在K-means聚类分析中,变量标准化的主要原因是为了求距离。K-means算法通过计算数据点之间的欧氏距离来确定它们的相似性,并将其分配到不同的簇中。如果数据集中的变量具有不同的量纲(例如,一个变量的取值范围是0到1,而另一个变量的取值范围是0到1000),那么在计算距离时,量纲较大的变量会对距离计算结果产生更大的影响,从而导致聚类结果的偏差。

标准化的过程通常包括将每个变量的值减去其均值,然后除以其标准差,使得所有变量的值都在同一个尺度上。这种处理确保了每个变量在距离计算中具有同等的权重,从而提高了聚类结果的准确性和可靠性。