数据清洗与数据泄漏的正确做法-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

数据准备方法是在评估模型性能之前对整个数据集进行处理，这会导致数据泄漏的问题，而在数据清洗过程中（缺失值、异常值），以下哪个做法是正确的？

A. 运用验证数据集中变量的统计量对训练集中的变量进行数据清洗

B. 运用验证数据集中变量的统计量对验证集中的变量进行数据清洗

C. 运用训练数据集中变量的统计量对验证集中的变量进行数据清洗

D. 以上均不对

上一题

下一题

题目解析

题目评论(0)

A和B选项会导致在使用训练集训练模型过程中，把验证集的数据特征“泄露”给训练集。因此A和B项都是不准确的，而C选项是没有这个问题。

在数据准备过程中，数据泄漏是一个非常重要的问题。数据泄漏指的是在模型训练过程中，模型意外地接触到了验证数据或测试数据的信息，从而导致模型性能的评估结果过于乐观。

在数据清洗过程中（例如处理缺失值和异常值），正确的做法是只使用训练数据中的统计量来对验证数据和测试数据进行处理。这样可以确保验证数据和测试数据在模型训练过程中是完全独立的，从而避免数据泄漏。

因此，正确答案是：

C: 运用训练数据集中变量的统计量对验证集中的变量进行数据清洗

### 专业分析

1. **数据泄漏问题**：
- 如果使用验证数据或测试数据的统计量来处理训练数据，那么模型在训练过程中会无意中“看到”验证数据或测试数据的信息。这会导致模型在验证集或测试集上的表现被高估，因为模型已经间接地利用了这些数据的信息。

2. **正确的数据清洗流程**：
- 首先，对训练数据进行清洗和预处理，计算所需的统计量（如均值、中位数、标准差等）。
- 然后，使用这些统计量对验证数据和测试数据进行相应的处理。例如，如果在训练数据中使用均值填补缺失值，那么在验证数据和测试数据中也应该使用训练数据的均值进行填补。

3. **避免数据泄漏的原则**：
- 在整个模型开发流程中，验证集和测试集应始终保持独立，不得使用这些数据来影响模型的训练过程。

通过遵循这些原则，可以确保模型的性能评估结果更加真实可靠，从而使得模型在实际应用中的表现更加稳定和可靠。