考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

下列有关K-means算法的叙述何者有误?(多选)
A. 运行速度较一些聚类方法(例如,PAM)慢
B. 离群值将影响聚类的结果
C. 起始群中心的选择将影响聚类的结果
D. 能接受类别型的字段
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

K-means算法是一种常用的聚类方法,主要用于将数据点分成预定义的K个簇。对于所列出的叙述,我们可以逐一分析其正确性:

A: **运行速度较一些聚类方法(例如,PAM)慢**
- 这项叙述是不正确的。K-means算法由于其简单和高效的迭代过程,通常比许多其他聚类算法(例如PAM,Partitioning Around Medoids)运行得更快,尤其在处理大规模数据集时。K-means的时间复杂度较低,为 \(O(n \cdot k \cdot i \cdot d)\),其中 \(n\) 是数据点数,\(k\) 是簇的数量,\(i\) 是迭代次数,\(d\) 是特征数。

B: **离群值将影响聚类的结果**
- 这项叙述是正确的。K-means对离群值非常敏感,因为它使用均值来计算簇中心。离群点会导致簇中心偏移,从而影响最终的聚类结果。

C: **起始群中心的选择将影响聚类的结果**
- 这项叙述也是正确的。K-means的结果很大程度上依赖于初始簇中心的选择,不同的初始值可能导致不同的聚类结果。为减少这种影响,常用的方法包括多次运行K-means或使用K-means++来优化初始中心的选择。

D: **能接受类别型的字段**
- 这项叙述不正确。K-means仅适用于数值型数据,因为它依赖于欧氏距离来计算数据点之间的相似性。对于类别型数据,使用K-modes或其他适合的算法可能更为合适。

综上所述,选项A和D的叙述有误。