K-Means算法特点及误区-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

（单选题）对于K-Means算法，描述错误的是（）？

A. 该算法与样本数量线性相关，所以适合大数据集

B. 需要事先确定K值

C. 对异常值不敏感

D. 算法效率较高，伸缩性较好

上一题

下一题

题目解析

题目评论(0)

本题考察对K-Means算法的理解。K-Means算法对异常值敏感，通常需要删除异常值或进行变量转换处理，因此选项C表述错误，其余选项均正确，因此本题选C。

正确答案是：C:对异常值不敏感

专业分析：
K-Means算法是一种常用的聚类算法，其主要特点和缺点如下：

A: 该算法与样本数量线性相关，所以适合大数据集
这句话是正确的，因为K-Means算法的复杂度通常是O(n*k*i)，其中n是样本数量，k是簇的数量，i是迭代次数。由于其线性复杂度，K-Means算法在处理大数据集时表现较好。

B:需要事先确定K值
这句话也是正确的。K-Means算法需要用户预先确定簇的数量K，这也是其一个主要缺点，因为在实际应用中，K值的选择可能并不直观。

C:对异常值不敏感
这句话是错误的。K-Means算法对异常值（outliers）非常敏感，因为异常值会显著影响簇中心的计算，从而影响整个聚类的效果。

D: 算法效率较高，伸缩性较好
这句话是正确的。由于其相对简单的计算过程，K-Means算法效率较高，并且具有良好的伸缩性，适合处理大规模数据集。

综上所述，错误的描述是C:对异常值不敏感。