考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

对于K-Means算法,描述正确的是
A. 需要对数据进行标准化
B. 不需要对数据进行预处理
C. 模型自动确定K值
D. 可以直接使用文本格式的分类变量
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

K-means需要计算均值和距离,非常容易受到量纲和异常值等的影响,因此需要进行数据标准化

正确答案是:A: 需要对数据进行标准化。

分析:
K-Means算法是一种常用的聚类算法,其主要步骤是将数据分成K个簇。对于选项的分析如下:

A: 需要对数据进行标准化
正确。K-Means算法依赖于距离度量(通常是欧氏距离)。如果特征的尺度不同,会导致距离计算出现偏差,从而影响聚类效果。因此,在使用K-Means算法之前,通常需要对数据进行标准化处理,使得每个特征的值在相同的尺度范围内。

B: 不需要对数据进行预处理
错误。如上所述,数据预处理(如标准化)是必要的,以确保不同特征对距离计算的影响是均衡的。

C: 模型自动确定K值
错误。K值(即簇的数量)是K-Means算法的一个超参数,需要用户在算法运行之前手动指定。通常通过肘部法(Elbow Method)、轮廓系数(Silhouette Coefficient)等方法来选择合适的K值。

D: 可以直接使用文本格式的分类变量
错误。K-Means算法要求输入的数据是数值型的。对于分类变量,通常需要先进行编码处理(如独热编码)才能用于K-Means算法。

综上所述,选项A是正确的。