考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

下列何种集成的方法,会重复抽取训练数据集中的数据,且每笔被抽中的概率相等?
A. 袋装法(Bagging)
B. 提升法(Boosting)
C. 随机森林(Random Forest)
D. 以上皆是
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

正确答案是 A: 袋装法(Bagging)。

### 专业分析

- **袋装法(Bagging)**:
- **抽样方式**:袋装法使用自助采样(Bootstrap Sampling)的方法生成多个训练集。具体来说,从原始数据集中有放回地随机抽取样本来构建多个训练子集,因此每个样本被抽取到的概率相等。
- **特征**:由于是有放回地抽样,某些样本可能在单个子集中出现多次,而其他样本可能未被选中。

- **提升法(Boosting)**:
- **抽样方式**:Boosting并不使用重复抽取的方式。它通过迭代方式,逐步调整样本的权重,使模型更关注之前模型中表现不佳的部分样本。
- **特征**:每轮迭代中,新的弱学习器是在调整过权重的整个数据集上进行训练,因此并没有重复有放回抽样的特点。

- **随机森林(Random Forest)**:
- **抽样方式**:随机森林是袋装法的一个扩展,每个决策树都是通过对原始数据集进行自助采样生成的训练子集构建的。
- **特征**:除了数据的自助采样外,随机森林还在特征选择时引入随机性(在每个节点分裂时只考虑所有特征的一个随机子集)。

因此,只有袋装法和随机森林这两种方法中包含了重复抽样,且每次抽样中每个样本被选中的概率相等。而提升法采用了不同的方法来处理数据。随机森林是袋装法的一种特定实现,所以在严格意义上,正确答案应为 A: 袋装法。