数据分析考试训练集与测试集关系-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

在进行数据分析时，经常要分割训练集、测试集，并且还要考虑数据预处理、特征抽取、特征工程等，那么要仔细分析这些步骤之间的相互联系。关于训练集、测试集、数据预处理、特征工程，请回答以下问题（2）如果一个回归模型分为两步：先使用PCA降维，然后用多元线性回归做预测，那么测试集的结果应当如何计算（）

A. 用训练集上的PCA模型处理测试集数据，然后把得到的数据输入到多元线性回归模型做预测。

B. 用测试集上的PCA模型处理测试集数据，然后把得到的数据输入到多元线性回归模型做预测

C. 用全部数据集上的PCA模型处理测试集数据，然后把得到的数据输入到多元线性回归模型做预测

D. 以上皆可

上一题

下一题

题目解析

题目评论(0)

同上，从训练集和测试集的定义、界限划分理解。

在数据分析和建模过程中，正确的步骤和方法对于模型的性能和泛化能力至关重要。针对你提到的回归模型分为两步：先使用PCA降维，然后用多元线性回归做预测，这里需要明确如何处理测试集的数据。

首先，我们需要理解PCA（主成分分析）和多元线性回归的训练和应用过程：

1. **PCA降维**：PCA是一种无监督学习方法，用于降维。在训练集上训练PCA模型时，它会学习数据的主要方向（主成分），并使用这些主成分来变换数据。
2. **多元线性回归**：在训练集上训练多元线性回归模型时，它会学习输入特征与目标变量之间的关系。

在测试集上进行预测时，为了确保模型的泛化能力和避免数据泄漏，应该遵循以下步骤：

1. **使用训练集上的PCA模型处理测试集数据**：在训练集上训练好的PCA模型已经学到了数据的主要方向，这个模型应该应用于测试集数据，以保持训练和测试数据在相同的特征空间中。
2. **使用训练好的多元线性回归模型进行预测**：将通过PCA处理后的测试集数据输入到训练好的多元线性回归模型中，进行预测。

因此，正确的答案是：

A: 用训练集上的PCA模型处理测试集数据，然后把得到的数据输入到多元线性回归模型做预测。

### 专业分析
- **避免数据泄漏**：如果在测试集上重新训练PCA模型（如选项B），会导致数据泄漏，因为测试集的信息会影响PCA模型，也就是说测试集的信息会被引入到模型中，破坏了模型的独立性。
- **一致性**：使用训练集上的PCA模型处理测试集数据，确保训练和测试数据的一致性。这样，训练好的多元线性回归模型能够在相同的特征空间中进行预测。
- **泛化能力**：通过在训练集上训练PCA模型并应用于测试集，可以更好地评估模型的泛化能力，即模型在未见数据上的表现。

因此，选项A是正确的选择。