考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在进行数据分析时,经常要分割训练集、测试集,并且还要考虑数据预处理、特征抽取、特征工程等,那么要仔细分析这些步骤之间的相互联系。关于训练集、测试集、数据预处理、特征工程,请回答以下问题:(1)关于缺失值填充与训练集、测试集的关系,下面正确的操作是()
A. 先用全数据的均值填充缺失值,然后随机分割训练集、测试集
B. 先随机分割训练集、测试集,然后用各自集合的均值填充缺失值
C. 先随机分割训练集、测试集,然后用训练集的均值填充缺失值
D. 先随机分割训练集、测试集,然后用测试集的均值填充缺失值
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

我们的模型是基于训练集的数据建立的,测试集是用来测试训练的模型好坏与 否,是不应该被碰触引入任何其他数据信息的数据。A选项的错误在于用全数据的均值填充 缺失值。B和D选项的错误都在于不可以用测试集的均值来填充测试集的缺失值。

正确答案是:C: 先随机分割训练集、测试集,然后用训练集的均值填充缺失值

**专业分析:**

在数据分析和机器学习的过程中,数据预处理是非常关键的一步,特别是对缺失值的处理。以下是详细的分析:

1. **为什么要先分割训练集和测试集:**
- 在数据分析和机器学习中,模型的性能评估是通过测试集来进行的。为了避免数据泄露(即测试集的信息影响模型的训练过程),在进行任何数据预处理之前,首先要将数据分割成训练集和测试集。

2. **缺失值填充的策略:**
- 缺失值填充是数据预处理的一部分,通常使用均值、中位数、众数等统计量来填充缺失值。
- 如果在分割数据之前使用全数据的均值填充缺失值(选项A),会导致测试集的信息被引入到训练集中,破坏了模型评估的公平性。
- 如果在分割数据之后分别用各自集合的均值填充缺失值(选项B),会导致训练集和测试集的处理方式不一致,可能会影响模型的泛化能力。
- 如果只用测试集的均值填充缺失值(选项D),这是不合理的,因为测试集不应在训练过程中被使用。

3. **正确的操作:**
- 先将数据随机分割成训练集和测试集。
- 然后用训练集的均值填充训练集和测试集中的缺失值(选项C)。这样可以确保模型在训练过程中只利用了训练集的信息,避免了数据泄露,同时也保证了训练集和测试集的处理方式一致。

总之,选项C是最合理的操作步骤,它确保了数据预处理的一致性和模型评估的公平性。