K-Means算法需要标准化吗-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

对于K-Means算法，描述正确的是（）。

A. 需要对数据进行标准化

B. 不需要对数据进行预处理

C. 模型自动确定K值

D. 可以直接使用分类变量

上一题

下一题

题目解析

题目评论(0)

本题考察对K-Means算法的理解。K-Means算法需要对数据进行标准化，需要对数据进行预处理，不能直接使用分类变量，需要进行哑变量转换。K是超参数，是无法自动确定的。所以A选项正确，其余选项均错误，因此本题选A。

正确答案是：A: 需要对数据进行标准化。

专业分析：

K-Means算法是一种常用的聚类算法，以下是对各选项的分析：

A: 需要对数据进行标准化。
这是正确的。K-Means算法基于欧氏距离来计算数据点之间的相似度，因此数据的尺度会对结果产生很大的影响。为了避免某些特征由于量纲较大而对距离计算产生主导作用，通常需要对数据进行标准化处理。

B: 不需要对数据进行预处理。
这是不正确的。正如上面所述，数据的尺度和分布会影响K-Means的效果，因此通常需要进行标准化等预处理步骤。

C: 模型自动确定K值。
这是不正确的。K-Means算法需要用户预先指定聚类的数量K值。选择合适的K值通常需要通过实验和评估（如肘部法、轮廓系数等）来确定。

D: 可以直接使用分类变量。
这是不正确的。K-Means算法适用于数值型数据，而分类变量（离散数据）需要进行适当的编码（如独热编码）以转化为数值型数据后才能使用。

综上所述，A选项是正确的。