K-means需要计算均值和距离,非常容易受到异常值等的影响
正确答案是 C: 对异常值不敏感。
专业分析:
A: 该算法与样本数量线性相关,所以适合大数据集
- 这是正确的。K-Means算法的时间复杂度通常为O(n*k*i),其中n是样本数量,k是簇的数量,i是迭代次数。算法的复杂度与样本数量线性相关,因此在处理大数据集时,K-Means算法具有较好的表现。
B: 需要事先确定K值
- 这是正确的。K-Means算法需要用户在运行算法之前确定簇的数量K,这是算法的一个基本要求。
C: 对异常值不敏感
- 这是错误的。K-Means算法对异常值是敏感的,因为异常值会显著影响簇中心的计算,从而影响最终的聚类结果。异常值可能会导致簇中心偏离,从而影响整个聚类效果。
D: 算法效率较高,伸缩性较好
- 这是正确的。K-Means算法相对简单,计算效率较高,并且可以通过多种优化方法(如K-Means++初始化)进一步提高效率和效果。此外,K-Means算法具有较好的伸缩性,适用于大规模数据集。
因此,描述错误的是C: 对异常值不敏感。