决策树算法特征选择考察-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

在决策树算法中，ID3使用哪个度量来进行特征的选择？

A. 信息熵

B. 信息增益比

C. 信息增益

D. Gini指数

上一题

下一题

题目解析

题目评论(0)

ID3选用信息增益作为度量，C4.5选用增益率作为度量

正确答案是 C: 信息增益。

决策树算法中的ID3算法（Iterative Dichotomiser 3）使用信息增益（Information Gain）作为特征选择的度量标准。信息增益是基于熵（Entropy）的一个概念，用来衡量通过某个特征进行数据集划分后，系统的不确定性减少了多少。

具体来说，信息增益计算如下：

1. **计算数据集的熵**：熵是用来衡量数据集纯度的一种指标，熵越高，数据集越混乱。对于一个分类问题，数据集 \( D \) 的熵 \( H(D) \) 计算公式如下：
\[
H(D) = - \sum_{i=1}^{n} p_i \log_2(p_i)
\]
其中， \( p_i \) 是数据集中第 \( i \) 个类的概率。

2. **计算特征划分后的条件熵**：假设使用特征 \( A \) 将数据集 \( D \) 划分为 \( \{D_1, D_2, \ldots, D_n\} \) 不同的子集，那么特征 \( A \) 的条件熵 \( H(D|A) \) 计算公式如下：
\[
H(D|A) = \sum_{v \in \text{Values}(A)} \frac{|D_v|}{|D|} H(D_v)
\]
其中， \( D_v \) 是特征 \( A \) 取值为 \( v \) 时的数据子集。

3. **计算信息增益**：信息增益是原始数据集的熵与特征 \( A \) 条件熵之间的差值，计算公式如下：
\[
\text{Gain}(D, A) = H(D) - H(D|A)
\]

ID3算法会选择信息增益最大的特征进行数据集的划分，重复这一过程，直到满足停止条件（例如，所有特征都已使用或达到某个纯度阈值）。

简而言之，ID3通过计算每个特征的信息增益，选择信息增益最大的特征来进行数据集的划分，从而构建决策树。