K-means需要计算均值和距离,非常容易受到异常值等的影响
正确答案是:A: Kmeans不适合大数据集。
专业分析:
A: K-Means算法实际上是适合大数据集的,因为它的计算复杂度相对较低,通常为O(n*k*i),其中n是数据点的数量,k是簇的数量,i是迭代次数。因此,K-Means能够处理较大的数据集。
B: 需要事先确定K值。这个描述是正确的。K-Means算法需要用户在开始时指定簇的数量K,这是算法的一个重要参数。
C: 对异常值敏感。这个描述也是正确的。K-Means算法使用均值来更新簇中心,因此对于异常值(即离群点)非常敏感,因为这些异常值会显著影响均值的位置。
D: 算法效率较高,伸缩性较好。这个描述也是正确的。K-Means算法的计算复杂度较低,适合大规模数据集,并且可以通过并行化来进一步提高效率和伸缩性。
综上所述,选项A是错误的描述。