ID3选用信息增益作为度量,C4.5选用增益率作为度量
正确答案是 C: 信息增益。
决策树算法中的ID3算法(Iterative Dichotomiser 3)使用信息增益(Information Gain)作为特征选择的度量标准。信息增益是基于熵(Entropy)的一个概念,用来衡量通过某个特征进行数据集划分后,系统的不确定性减少了多少。
具体来说,信息增益计算如下:
1. **计算数据集的熵**:熵是用来衡量数据集纯度的一种指标,熵越高,数据集越混乱。对于一个分类问题,数据集 \( D \) 的熵 \( H(D) \) 计算公式如下:
\[
H(D) = - \sum_{i=1}^{n} p_i \log_2(p_i)
\]
其中, \( p_i \) 是数据集中第 \( i \) 个类的概率。
2. **计算特征划分后的条件熵**:假设使用特征 \( A \) 将数据集 \( D \) 划分为 \( \{D_1, D_2, \ldots, D_n\} \) 不同的子集,那么特征 \( A \) 的条件熵 \( H(D|A) \) 计算公式如下:
\[
H(D|A) = \sum_{v \in \text{Values}(A)} \frac{|D_v|}{|D|} H(D_v)
\]
其中, \( D_v \) 是特征 \( A \) 取值为 \( v \) 时的数据子集。
3. **计算信息增益**:信息增益是原始数据集的熵与特征 \( A \) 条件熵之间的差值,计算公式如下:
\[
\text{Gain}(D, A) = H(D) - H(D|A)
\]
ID3算法会选择信息增益最大的特征进行数据集的划分,重复这一过程,直到满足停止条件(例如,所有特征都已使用或达到某个纯度阈值)。
简而言之,ID3通过计算每个特征的信息增益,选择信息增益最大的特征来进行数据集的划分,从而构建决策树。