数据分析师考试中的袋装法考察-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

下列哪种方法，会重复抽取训练数据集中的数据，且每笔被抽中的概率始终保持一样？

A. 袋装法（Bagging）

B. 提升法（Boosting）

C. 支持向量机（SVM）

D. 以上皆是

上一题

下一题

题目解析

题目评论(0)

袋装法（Bagging）和随机森林（Random Forest）都使用自助抽样法（Bootstrap sampling）从原始数据集中重复抽取样本。在这个过程中，每次抽取时，所有样本被抽中的概率都是相等的。

正确答案是A: 袋装法（Bagging）。

**分析：**

- **袋装法（Bagging）**：袋装法是一种集成学习技术，它通过对训练数据集进行有放回的随机抽样来创建多个子数据集。这意味着每次抽样时，训练数据中的每个样本都有相同的概率被选择，并且一个样本可以被抽取多次。然后，每个子数据集用于训练一个基学习器，最终通过对这些基学习器的预测进行平均或投票来得到最终结果。

- **提升法（Boosting）**：提升法也是一种集成学习技术，但与袋装法不同的是，提升法在每次迭代时会根据前一次迭代的错误率来调整样本的权重。被错误分类的样本会被赋予更高的权重，从而在后续的迭代中更有可能被选择。因此，提升法并不是在每次抽样时都保持相同的概率。

- **支持向量机（SVM）**：支持向量机是一种监督学习模型，用于分类和回归分析。SVM 并不涉及对训练数据集的重复抽取，而是通过寻找最佳超平面来分隔不同类别的数据点。

因此，只有袋装法（Bagging）符合问题中描述的“会重复抽取训练数据集中的数据，且每笔被抽中的概率始终保持一样”的条件。