决策树特征选择不纯度指标-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

决策树当中在做特征选择的过程中用的什么来描述不纯度？（多选）

A. 墒

B. 基尼指数

C. 损失函数

D. 误分类误差

上一题

下一题

题目解析

题目评论(0)

在决策树中，常用的不纯度指标主要有以下几个：

1. **熵（Entropy）**：熵是一种度量信息混乱程度的方法。它在信息增益的计算中使用，是 ID3 决策树算法选择特征的依据。信息增益通过比较决策前后熵的变化来进行特征选择。

2. **基尼指数（Gini Index）**：基尼指数用于 CART（Classification and Regression Tree）决策树中。它衡量在子集中选择一个随机实例被错误分类的概率。基尼指数越小，表示该节点的纯度越高。

3. **误分类误差（Misclassification Error）**：这是另一种衡量不纯度的方法，但使用相对较少。它表示一组数据中标签错误的比例。

结合以上分析，正确答案是：

- **B: 基尼指数**
- **D: 误分类误差**

熵虽然也是一种描述不纯度的方法，但此处特定问的是“决策树”中用于特征选择的指标，而熵在问题选项中被错误地写作“墒”，应为“熵”。损失函数一般在机器学习中的其他算法如回归分析中使用较多，而不是特征选择中的不纯度。