K-means聚类容易受初始值和离群值的影响,故选择A和D正确。由于K-means 聚类算法是基于距离度量的算法,所以它只能发现球状簇,而对于类似于环形簇这样的数据 就不能很好的聚类了。K值的选择是K-means算法的最大问题,也是这种算法的主要缺点。 故B选项说法错误。
正确答案是:B: K值可以自行迭代给出。
专业分析:
A: 对于离群点和孤立点敏感
这是正确的。K-means算法对离群点和孤立点非常敏感,因为这些点会显著影响簇的中心位置,从而影响聚类结果。
B: K值可以自行迭代给出
这是错误的。K-means算法要求用户预先指定K值,即簇的数量。虽然有一些方法(如肘部法、轮廓系数等)可以帮助选择合适的K值,但这些方法都是在算法运行之前或之后进行的,K值并不是在K-means算法内部自动迭代得出的。
C: 只能发现球状簇
这是正确的。K-means算法假设簇是球状的,因为它使用欧氏距离来计算样本点到簇中心的距离。如果簇的形状不是球状的,K-means的效果会大打折扣。
D: 对初始聚类中心的选择敏感
这是正确的。K-means算法对初始聚类中心的选择非常敏感,不同的初始点可能导致不同的聚类结果。为了缓解这一问题,通常会运行多次K-means算法,并选择最优的结果。