考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在决策树算法中,ID3使用哪个度量来进行特征的选择?
A. 信息熵
B. 信息增益比
C. 信息增益
D. Gini指数
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

ID3选用信息增益作为度量,C4.5选用增益率作为度量

正确答案是 C: 信息增益。

决策树算法中的ID3算法(Iterative Dichotomiser 3)使用信息增益(Information Gain)作为特征选择的度量标准。信息增益是基于熵(Entropy)的一个概念,用来衡量通过某个特征进行数据集划分后,系统的不确定性减少了多少。

具体来说,信息增益计算如下:

1. **计算数据集的熵**:熵是用来衡量数据集纯度的一种指标,熵越高,数据集越混乱。对于一个分类问题,数据集 \( D \) 的熵 \( H(D) \) 计算公式如下:
\[
H(D) = - \sum_{i=1}^{n} p_i \log_2(p_i)
\]
其中, \( p_i \) 是数据集中第 \( i \) 个类的概率。

2. **计算特征划分后的条件熵**:假设使用特征 \( A \) 将数据集 \( D \) 划分为 \( \{D_1, D_2, \ldots, D_n\} \) 不同的子集,那么特征 \( A \) 的条件熵 \( H(D|A) \) 计算公式如下:
\[
H(D|A) = \sum_{v \in \text{Values}(A)} \frac{|D_v|}{|D|} H(D_v)
\]
其中, \( D_v \) 是特征 \( A \) 取值为 \( v \) 时的数据子集。

3. **计算信息增益**:信息增益是原始数据集的熵与特征 \( A \) 条件熵之间的差值,计算公式如下:
\[
\text{Gain}(D, A) = H(D) - H(D|A)
\]

ID3算法会选择信息增益最大的特征进行数据集的划分,重复这一过程,直到满足停止条件(例如,所有特征都已使用或达到某个纯度阈值)。

简而言之,ID3通过计算每个特征的信息增益,选择信息增益最大的特征来进行数据集的划分,从而构建决策树。