考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在进行数据分析时,经常要分割训练集、测试集,并且还要考虑数据预处理、特征抽取、特征工程等,那么要仔细分析这些步骤之间的相互联系。关于训练集、测试集、数据预处理、特征工程,请回答以下问题 (3)建模中对数据中的某变量x做了z标准化,那么在模型实际上线后,怎么对x做标准化处理?
A. 使用训练数据集的均值和方差
B. 使用测试数据集的均值和方差
C. 使用验证数据集的均值和方差
D. 使用全部数据集的均值和方差
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

还是从训练集和测试集的定义、界限划分理解。

在建模过程中,对数据中的某变量 \( x \) 做了 \( z \) 标准化,意味着我们将数据转化为零均值和单位方差的形式。标准化的公式为:

\[ z = \frac{x - \mu}{\sigma} \]

其中,\( \mu \) 是均值,\( \sigma \) 是标准差。

在模型上线后,即在预测新数据时,为了保持数据处理的一致性,我们必须使用训练数据集的均值和方差来对新数据进行标准化处理。原因如下:

1. **一致性**:使用训练数据集的均值和方差可以确保数据处理的一致性。这是因为模型是在训练数据集上学习到的特征分布,如果在预测阶段使用不同的数据集的均值和方差,可能会导致数据分布不一致,从而影响模型的预测性能。

2. **避免数据泄露**:使用测试数据集或验证数据集的均值和方差会导致数据泄露,因为测试集和验证集的数据在训练过程中是不应该被使用的。这样会违反机器学习中的数据独立性原则。

3. **模型泛化**:使用训练数据集的均值和方差可以确保模型在新数据上的泛化能力。模型在训练过程中已经适应了训练集的特征分布,因此在预测阶段也应保持这种分布。

因此,正确答案是:

A: 使用训练数据集的均值和方差。