考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

决策树中的信息获利(Information Gain)的计算是用来?
A. 选择有效的数据 
B. 決定是否砍树
C. 选择有效的属性
D. 评估错误率
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

正确答案是:C: 选择有效的属性。

### 专业分析:

在决策树的构建过程中,信息增益(Information Gain)是用来选择最能区分数据的属性。具体来说,信息增益用于量化某个属性在划分数据上的有效性。通过计算每个属性的信息增益,可以决定哪个属性适合作为节点,从而在构建决策树时优先选择信息增益最大的属性。

#### 信息增益的计算过程:

1. **熵(Entropy)**:
- 熵是用来衡量数据集的纯度或不确定性的指标。纯度越高,熵越低。

\[
H(S) = - \sum_{i=1}^{n} p_i \log_2 p_i
\]

- 其中,\( p_i \) 是类别 \( i \) 在数据集 \( S \) 中的比例。

2. **条件熵(Conditional Entropy)**:
- 在某个属性 \( A \) 划分下的熵,即数据集按该属性分组后的熵的加权和。

\[
H(S|A) = \sum_{v \in \text{Values}(A)} \frac{|S_v|}{|S|} H(S_v)
\]

- 其中,\( S_v \) 是在属性 \( A \) 上取值为 \( v \) 的样本子集。

3. **信息增益**:
- 信息增益是选择某个属性后的熵减少量,定义如下:

\[
\text{Information Gain}(S, A) = H(S) - H(S|A)
\]

- 信息增益越大,说明使用该属性划分数据集后使得数据变得更“有序”,即分类更明确。

### 总结:
信息增益在决策树中是用于选择最佳的划分属性,使得数据集的分类纯度最大化。因此,它在决策树的每个节点选择中起到关键作用,帮助确定最优的划分策略。