-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

某分析师在进行商品聚类分析时，直接使用了原始销售数据（包含销量、销售额、利润率），未做任何处理就运行了K-Means算法，结果发现“销售额”这一指标完全主导了聚类结果，而“利润率”几乎没有起作用。随后，他引入了主成分分析（PCA）提取前两个主成分再进行聚类。关于这一过程，下列评价正确的是：

A. 引入PCA的主要目的是为了增加数据的维度，使聚类更复杂。

B. 初始结果偏差的主要原因是未进行数据标准化，导致量纲大的变量主导距离计算。

C. K-Means算法本身具有自动处理量纲差异的功能，无需预处理。

D. 层次聚类法比K-Means更适合处理这种未标准化的原始数据，无需任何预处理。

上一题

下一题

题目解析

题目评论(0)

题干描述的现象（销售额主导）是典型的量纲不一致导致的问题。销售额数值通常远大于利润率（百分比或小数），在未标准化情况下，欧氏距离主要由大数值变量决定。因此，初始偏差的原因是未标准化（B正确）。PCA的作用是降维和去相关，而非增加维度（A错）；K-Means对量纲敏感（C错）；任何基于距离的聚类方法（包括层次聚类）都受量纲影响，都需要标准化（D错）。