在机器学习的集成方法中,数据抽取的方式对于模型训练有重要影响。让我们逐一分析选项:
A: **袋装法(Bagging)**
- **特征**:在袋装法中,每个基学习器的训练集是从原始训练集中通过有放回的抽样获得的。这意味着每次抽样时,数据可能会被重复选中,但每笔数据被抽中的概率是相等的。
B: **提升法(Boosting)**
- **特征**:提升法在每次迭代时会改变数据被抽取的概率。具体来说,提升法会根据上一轮的预测效果调整样本权重,从而让错分样本在后续轮次中有更高的被抽中的概率。因此,在提升法中,每笔被抽中的概率不见得相等。
C: **随机森林(Random Forest)**
- **特征**:随机森林是袋装法的一种扩展,不仅在样本上进行有放回抽样(Bagging),还在特征上进行随机选择。虽然数据会重复抽取,但如同袋装法,每笔数据被抽中的概率在每轮抽样时是相等的。
D: **以上皆是**
- 从上述分析可知,只有提升法在抽取样本时会导致每笔数据被抽中的概率不均等。因此,“以上皆是”这一选项是不正确的。
综上所述,正确答案是:**B:提升法(Boosting)**。