考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

对于K-Means算法,描述正确的是()。
A. 需要对数据进行标准化
B. 不需要对数据进行预处理
C. 模型自动确定K值
D. 可以直接使用分类变量
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

本题考察对K-Means算法的理解。K-Means算法需要对数据进行标准化,需要对数据进行预处理,不能直接使用分类变量,需要进行哑变量转换。K是超参数,是无法自动确定的。所以A选项正确,其余选项均错误,因此本题选A。

正确答案是:A: 需要对数据进行标准化。

专业分析:

K-Means算法是一种常用的聚类算法,以下是对各选项的分析:

A: 需要对数据进行标准化。
这是正确的。K-Means算法基于欧氏距离来计算数据点之间的相似度,因此数据的尺度会对结果产生很大的影响。为了避免某些特征由于量纲较大而对距离计算产生主导作用,通常需要对数据进行标准化处理。

B: 不需要对数据进行预处理。
这是不正确的。正如上面所述,数据的尺度和分布会影响K-Means的效果,因此通常需要进行标准化等预处理步骤。

C: 模型自动确定K值。
这是不正确的。K-Means算法需要用户预先指定聚类的数量K值。选择合适的K值通常需要通过实验和评估(如肘部法、轮廓系数等)来确定。

D: 可以直接使用分类变量。
这是不正确的。K-Means算法适用于数值型数据,而分类变量(离散数据)需要进行适当的编码(如独热编码)以转化为数值型数据后才能使用。

综上所述,A选项是正确的。