CDA LEVEL II 数据分析题目解析-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

在进行数据分析时，经常要分割训练集、测试集，并且还要考虑数据预处理、特征抽取、特征工程等，那么要仔细分析这些步骤之间的相互联系。关于训练集、测试集、数据预处理、特征工程，请回答以下问题：（1）关于缺失值填充与训练集、测试集的关系，下面正确的操作是（）

A. 先用全数据的均值填充缺失值，然后随机分割训练集、测试集

B. 先随机分割训练集、测试集，然后用各自集合的均值填充缺失值

C. 先随机分割训练集、测试集，然后用训练集的均值填充缺失值

D. 先随机分割训练集、测试集，然后用测试集的均值填充缺失值

上一题

下一题

题目解析

题目评论(0)

我们的模型是基于训练集的数据建立的，测试集是用来测试训练的模型好坏与否，是不应该被碰触引入任何其他数据信息的数据。A选项的错误在于用全数据的均值填充缺失值。B和D选项的错误都在于不可以用测试集的均值来填充测试集的缺失值。

正确答案是：C: 先随机分割训练集、测试集，然后用训练集的均值填充缺失值

**专业分析：**

在数据分析和机器学习的过程中，数据预处理是非常关键的一步，特别是对缺失值的处理。以下是详细的分析：

1. **为什么要先分割训练集和测试集：**
- 在数据分析和机器学习中，模型的性能评估是通过测试集来进行的。为了避免数据泄露（即测试集的信息影响模型的训练过程），在进行任何数据预处理之前，首先要将数据分割成训练集和测试集。

2. **缺失值填充的策略：**
- 缺失值填充是数据预处理的一部分，通常使用均值、中位数、众数等统计量来填充缺失值。
- 如果在分割数据之前使用全数据的均值填充缺失值（选项A），会导致测试集的信息被引入到训练集中，破坏了模型评估的公平性。
- 如果在分割数据之后分别用各自集合的均值填充缺失值（选项B），会导致训练集和测试集的处理方式不一致，可能会影响模型的泛化能力。
- 如果只用测试集的均值填充缺失值（选项D），这是不合理的，因为测试集不应在训练过程中被使用。

3. **正确的操作：**
- 先将数据随机分割成训练集和测试集。
- 然后用训练集的均值填充训练集和测试集中的缺失值（选项C）。这样可以确保模型在训练过程中只利用了训练集的信息，避免了数据泄露，同时也保证了训练集和测试集的处理方式一致。

总之，选项C是最合理的操作步骤，它确保了数据预处理的一致性和模型评估的公平性。