KMeans聚类算法常见误区解析-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

关于KMeans聚类算法，下面哪种说法是错误的是？

A. KMeans 算法中的 k是一个超参数，需要我们人为输入来确定

B. 簇中所有数据的均值通常被称为这个簇的“质心”（centroids）

C. 直到簇不再发生变化或者达到最大迭代次数，KMeans算法才停止寻找新的质心

D. 质心越多越好

上一题

下一题

题目解析

题目评论(0)

质心不是越多越好，最优的K值在实践中可通过二分查找等方法确定

正确答案是：D: 质心越多越好。

分析：
A: 这个说法是正确的。KMeans算法中的k是一个超参数，表示我们希望将数据分成k个簇，这个值需要我们根据实际问题和数据特点来进行选择。

B: 这个说法也是正确的。在KMeans算法中，每个簇的质心（centroid）是该簇中所有数据点的均值。

C: 这个说法也正确。KMeans算法的迭代过程会持续进行，直到簇不再发生变化（即收敛）或者达到预设的最大迭代次数。

D: 这个说法是错误的。质心的数量（即k值）并不是越多越好。质心数量过多可能导致过拟合，反而不能很好地概括数据的内在结构。选择合适的k值是一个需要平衡的问题，通常可以通过肘部法则（Elbow Method）等方法来确定一个合适的k值。