CDA LEVEL II 模拟题（二）2023年新版数据分析师考试考点-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

关于KMeans聚类算法，下面哪种说法是错误的是？

A. KMeans 算法中的 k是一个超参数，需要我们人为输入来确定

B. 簇中所有数据的均值通常被称为这个簇的“质心”（centroids）

C. 直到簇不再发生变化或者达到最大迭代次数，KMeans算法才停止寻找新的质心

D. 质心越多越好

上一题

下一题

题目解析

题目评论(0)

质心不是越多越好，最优的K值在实践中可通过二分查找等方法确定

正确答案是 D: 质心越多越好。

分析：

A: KMeans 算法中的 k是一个超参数，需要我们人为输入来确定。
这个说法是正确的。在KMeans算法中，k表示要分成的簇的数量，这是一个需要用户预先设定的参数。

B: 簇中所有数据的均值通常被称为这个簇的“质心”（centroids）。
这个说法也是正确的。KMeans算法中，每个簇的质心是该簇中所有点的均值。

C: 直到簇不再发生变化或者达到最大迭代次数，KMeans算法才停止寻找新的质心。
这个说法也是正确的。KMeans算法的停止条件通常是簇的分配不再发生变化或者达到了预设的最大迭代次数。

D: 质心越多越好。
这个说法是错误的。质心（簇的数量）越多并不一定越好。虽然增加质心的数量可能会减少每个簇内的距离总和，但这也可能导致过拟合问题。此外，选择过多的质心可能会使模型变得复杂，难以解释，并且可能不具备良好的泛化能力。选择适当数量的质心需要根据具体问题和数据特点，通过交叉验证或其他评估方法来确定。