考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

下列何种集成的方法,会重复抽取训练数据集中的数据,且每笔被抽中的概率不一定相等?
A. 袋装法(Bagging)
B. 提升法(Boosting)
C. 随机森林(Random Forest)
D. 以上皆是
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

正确答案是:B: 提升法(Boosting)。

### 分析:

- **袋装法(Bagging)**:
- **特点**:通过有放回的随机抽样方法从原始训练集生成多个子集,每个子集的大小与原始训练集相同。每个样本在每次抽样时被选中的概率相等。
- **示例**:随机森林就是袋装法的一个扩展应用。

- **提升法(Boosting)**:
- **特点**:在每一轮训练时,提升方法并不简单随机抽样,而是根据前一轮的模型表现来调整样本的权重。表现不佳的样本会被赋予更高的权重,因此在后续的模型训练中更有可能被选中。
- **影响**:这导致每个样本被选中的概率可能不相等,因为样本的权重会随着迭代改变。

- **随机森林(Random Forest)**:
- **特点**:是袋装法的一种改进,主要区别在于每棵决策树在训练时,不仅对数据进行有放回的抽样,还随机选择特征集的一个子集来寻找最佳分割。
- **相似性**:与袋装法类似,每个样本被选中的概率相等。

### 结论:
提升法(Boosting)中,由于样本权重在每轮训练后会调整,使得每个样本被选中的概率不一定相等,因此答案是B: 提升法(Boosting)。