考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

下列何种集成的方法,会重复抽取训练数据集中的数据,且每笔被抽中的概率不见得相等?
A. 袋装法(Bagging)
B. 提升法(Boosting)
C. 随机森林(Random Forest)
D. 以上皆是
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

在机器学习的集成方法中,数据抽取的方式对于模型训练有重要影响。让我们逐一分析选项:

A: **袋装法(Bagging)**
- **特征**:在袋装法中,每个基学习器的训练集是从原始训练集中通过有放回的抽样获得的。这意味着每次抽样时,数据可能会被重复选中,但每笔数据被抽中的概率是相等的。

B: **提升法(Boosting)**
- **特征**:提升法在每次迭代时会改变数据被抽取的概率。具体来说,提升法会根据上一轮的预测效果调整样本权重,从而让错分样本在后续轮次中有更高的被抽中的概率。因此,在提升法中,每笔被抽中的概率不见得相等。

C: **随机森林(Random Forest)**
- **特征**:随机森林是袋装法的一种扩展,不仅在样本上进行有放回抽样(Bagging),还在特征上进行随机选择。虽然数据会重复抽取,但如同袋装法,每笔数据被抽中的概率在每轮抽样时是相等的。

D: **以上皆是**
- 从上述分析可知,只有提升法在抽取样本时会导致每笔数据被抽中的概率不均等。因此,“以上皆是”这一选项是不正确的。

综上所述,正确答案是:**B:提升法(Boosting)**。