对于决策树分裂节点时的信息增益,以下是对选项的专业分析:
A. **纯度高的节点需要更多的信息去区分**
- 纯度高的节点意味着该节点中的数据大多数属于同一类别。在这种情况下,信息增益会较小,因为节点已经较为纯净,分裂后带来的信息增益有限。
- 因此,这个说法不正确。
B. **信息增益可以用”1比特-熵”获得**
- 信息增益是通过计算分裂前后的熵变化获得的,公式为:
\[
信息增益 = 熵(父节点) - \sum{(\frac{子节点样本数}{父节点样本数} \times 熵(子节点))}
\]
- 这里的“1比特-熵”并不是一个标准的描述或计算方法。
- 因此,这个说法不正确。
C. **如果选择一个属性具有许多归类值, 那么这个信息增益是有偏差的**
- 是的,这个现象被称为“信息增益偏差”,容易偏向那些具有更多类别的属性。为解决这个问题,可以使用信息增益比(Gain Ratio)来进行调整。
- 这个说法正确。
D. **所有以上**
- 根据以上分析,只有选项 C 是正确的,因此 D 是不正确的。
经过分析,正确答案是 **C**。