考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

如果原数据没有缺失值,想要使用KNN算法来建立有监督学习模型,以下操作过程错误的是?
A. 字段量纲差别大,做归一化工作
B. 检查“是否约会成功”字段的分布特征
C. 如果标签字段分布不均匀,选择交叉验证方法的时候,最好使用StratifiedKFold
D. 无论标签值分布如何,选择交叉验证方法或划分训练集、测试集方法的时候,方法随意选择即可
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在使用KNN算法来建立有监督学习模型时,以下是分析每个选项的正确性:

A: **字段量纲差别大,做归一化工作**
- **正确性**:正确。KNN算法基于距离来计算样本间的相似性,因此不同字段的量纲差别可能会影响结果,归一化是必要的。

B: **检查“是否约会成功”字段的分布特征**
- **正确性**:正确。了解标签字段的分布,对于数据预处理和模型评估非常重要,尤其是在类别不均衡的情况下。

C: **如果标签字段分布不均匀,选择交叉验证方法的时候,最好使用StratifiedKFold**
- **正确性**:正确。StratifiedKFold会保持每个折叠中标签的分布一致,适用于不均匀标签分布的情况。

D: **无论标签值分布如何,选择交叉验证方法或划分训练集、测试集方法的时候,方法随意选择即可**
- **正确性**:错误。选择交叉验证方法或训练集、测试集划分时,不能随意选择。标签分布不均匀时,应该使用如StratifiedKFold的方法来确保分布的一致性。

因此,错误的选项是 **D**。

### 分析总结

| 选项 | 正确性 | 说明 |
|---|---|---|
| A | 正确 | 归一化是必要的,以消除量纲差异对距离计算的影响。 |
| B | 正确 | 了解标签分布有助于调整模型训练和评估策略。 |
| C | 正确 | StratifiedKFold可以处理不均匀分布,保持每个折中的均衡性。 |
| D | 错误 | 标签分布影响交叉验证和数据集划分策略,不能任意选择。 |