聚类算法常见误区分析-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

以下描述中关于聚类算法的描述错误的是（）

A. 聚类本身是一种无监督学习的算法

B. 聚类的结果并不总是有实际的使用意义

C. 在聚类之前一般不需要进行数据清洗

D. 不同的应用场景下，应注意选择合适的聚类方法

上一题

下一题

题目解析

题目评论(0)

**答案：C: 在聚类之前一般不需要进行数据清洗**

### 分析

#### A: 聚类本身是一种无监督学习的算法
- **正确**。聚类是一种无监督学习方法，因为它不依赖预先标记的训练数据。其目的是在没有预先定义的标签情况下，根据数据的相似性或距离将数据集分为不同的组或簇。

#### B: 聚类的结果并不总是有实际的使用意义
- **正确**。聚类的结果可能会因为数据的固有属性、选择的距离度量、参数设置等因素，导致聚类结果不具备实际意义。因此在应用时，需要仔细验证结果的合理性和可解释性。

#### C: 在聚类之前一般不需要进行数据清洗
- **错误**。数据清洗是数据预处理的重要步骤，无论是聚类还是其他类型的分析，都需要确保数据的质量。数据清洗可能包括处理缺失值、去除噪声、标准化数据等，这些步骤能显著提高聚类结果的质量。

#### D: 不同的应用场景下，应注意选择合适的聚类方法
- **正确**。不同的聚类算法有不同的假设和适用条件。例如，K-means适用于凸状且规模相近的簇，而DBSCAN适用于噪声较多、簇形状不规则的数据。因此，应根据具体的应用场景和数据特点选择合适的聚类方法。

### 总结
选项C是错误的，因为数据清洗是聚类前的重要步骤，能帮助提高聚类分析的有效性和准确性。