考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某分析师在进行商品聚类分析时,直接使用了原始销售数据(包含销量、销售额、利润率),未做任何处理就运行了K-Means算法,结果发现“销售额”这一指标完全主导了聚类结果,而“利润率”几乎没有起作用。随后,他引入了主成分分析(PCA)提取前两个主成分再进行聚类。关于这一过程,下列评价正确的是:
A. 引入PCA的主要目的是为了增加数据的维度,使聚类更复杂。
B. 初始结果偏差的主要原因是未进行数据标准化,导致量纲大的变量主导距离计算。
C. K-Means算法本身具有自动处理量纲差异的功能,无需预处理。
D. 层次聚类法比K-Means更适合处理这种未标准化的原始数据,无需任何预处理。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

题干描述的现象(销售额主导)是典型的量纲不一致导致的问题。销售额数值通常远大于利润率(百分比或小数),在未标准化情况下,欧氏距离主要由大数值变量决定。因此,初始偏差的原因是未标准化(B正确)。PCA的作用是降维和去相关,而非增加维度(A错);K-Means对量纲敏感(C错);任何基于距离的聚类方法(包括层次聚类)都受量纲影响,都需要标准化(D错)。