本题考察对K-Means算法的理解。K-Means算法对异常值敏感,通常需要删除异常值或进行变量转换处理,因此选项C表述错误,其余选项均正确,因此本题选C。
正确答案是:C:对异常值不敏感
专业分析:
K-Means算法是一种常用的聚类算法,其主要特点和缺点如下:
A: 该算法与样本数量线性相关,所以适合大数据集
这句话是正确的,因为K-Means算法的复杂度通常是O(n*k*i),其中n是样本数量,k是簇的数量,i是迭代次数。由于其线性复杂度,K-Means算法在处理大数据集时表现较好。
B:需要事先确定K值
这句话也是正确的。K-Means算法需要用户预先确定簇的数量K,这也是其一个主要缺点,因为在实际应用中,K值的选择可能并不直观。
C:对异常值不敏感
这句话是错误的。K-Means算法对异常值(outliers)非常敏感,因为异常值会显著影响簇中心的计算,从而影响整个聚类的效果。
D: 算法效率较高,伸缩性较好
这句话是正确的。由于其相对简单的计算过程,K-Means算法效率较高,并且具有良好的伸缩性,适合处理大规模数据集。
综上所述,错误的描述是C:对异常值不敏感。