KNN算法在无缺失值数据中的错误操作-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

如果原数据没有缺失值，想要使用KNN算法来建立有监督学习模型，以下操作过程错误的是？

A. 字段量纲差别大，做归一化工作

B. 检查“是否约会成功”字段的分布特征

C. 如果标签字段分布不均匀，选择交叉验证方法的时候，最好使用StratifiedKFold

D. 无论标签值分布如何，选择交叉验证方法或划分训练集、测试集方法的时候，方法随意选择即可

上一题

下一题

题目解析

题目评论(0)

在使用KNN算法来建立有监督学习模型时，以下是分析每个选项的正确性：

A: **字段量纲差别大，做归一化工作**
- **正确性**：正确。KNN算法基于距离来计算样本间的相似性，因此不同字段的量纲差别可能会影响结果，归一化是必要的。

B: **检查“是否约会成功”字段的分布特征**
- **正确性**：正确。了解标签字段的分布，对于数据预处理和模型评估非常重要，尤其是在类别不均衡的情况下。

C: **如果标签字段分布不均匀，选择交叉验证方法的时候，最好使用StratifiedKFold**
- **正确性**：正确。StratifiedKFold会保持每个折叠中标签的分布一致，适用于不均匀标签分布的情况。

D: **无论标签值分布如何，选择交叉验证方法或划分训练集、测试集方法的时候，方法随意选择即可**
- **正确性**：错误。选择交叉验证方法或训练集、测试集划分时，不能随意选择。标签分布不均匀时，应该使用如StratifiedKFold的方法来确保分布的一致性。

因此，错误的选项是 **D**。

### 分析总结

| 选项 | 正确性 | 说明 |
|---|---|---|
| A | 正确 | 归一化是必要的，以消除量纲差异对距离计算的影响。 |
| B | 正确 | 了解标签分布有助于调整模型训练和评估策略。 |
| C | 正确 | StratifiedKFold可以处理不均匀分布，保持每个折中的均衡性。 |
| D | 错误 | 标签分布影响交叉验证和数据集划分策略，不能任意选择。 |