考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

关于数据清洗(缺失值、异常值),以下哪个叙述是正确的?
A. 运用验证数据集中变量的统计量对训练集中的变量进行数据清洗
B. 运用验证数据集中变量的统计量对验证集中的变量进行数据清洗
C. 运用训练数据集中变量的统计量对验证集中的变量进行数据清洗
D. 以上均不对
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

正确的选项是 C: 运用训练数据集中变量的统计量对验证集中的变量进行数据清洗。

专业分析:

1. **数据清洗的目的**:数据清洗的目的是为了处理缺失值和异常值,以提高模型的性能和可靠性。通常,我们会在训练集上进行数据清洗,并应用相同的清洗规则到验证集和测试集上。

2. **训练集的作用**:训练集用于模型的训练和参数的学习,因此在训练集上计算出的统计量(如均值、中位数、标准差等)应该用于对其他数据集(验证集和测试集)进行清洗。这是因为验证集和测试集不应影响模型的训练过程,而是用于评估模型的泛化能力。

3. **验证集和测试集的作用**:验证集用于模型的选择和超参数调整,测试集用于评估模型的最终性能。因此,它们应该保持独立于训练过程,使用训练集的统计量来进行清洗可以避免数据泄漏。

因此,选项 C 是正确的,因为它遵循了数据清洗与模型评估的基本原则,确保模型的评估过程不受验证集或测试集统计量的影响。