如何计算CART分类树的Gini值？-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

给定以下的便利商店选点数据集，并采用CART的分类树算法建构分类树(目标字段为最后一个字段)时，请回答以下题目：

（4）当左子树是捷运车站=有，右子树是捷运车站=没有时，请计算此树的Gini值为何？

A. 0.398

B. 0.489

C. 0.429

D. 0.217

上一题

下一题

题目解析

题目评论(0)

为了计算分类树的Gini值，我们需要了解Gini指数的计算方法。Gini指数是衡量数据集的不纯度的一种指标，计算公式如下：

\[ Gini(D) = 1 - \sum_{i=1}^{n} p_i^2 \]

其中，\( p_i \) 是类别 \( i \) 在数据集 \( D \) 中的比例。

假设我们有一个数据集 \( D \)，并且我们根据“捷运车站=有”和“捷运车站=没有”进行划分。我们需要计算这两个子集的Gini值，然后根据这些值计算整个树的Gini值。

假设数据集 \( D \) 被分成左子树 \( D_1 \) 和右子树 \( D_2 \)，并且我们知道每个子树中的类别分布。我们可以使用以下步骤计算Gini值：

1. 计算左子树 \( D_1 \) 的Gini值：
\[ Gini(D_1) = 1 - \sum_{i=1}^{n} p_i^2 \]

2. 计算右子树 \( D_2 \) 的Gini值：
\[ Gini(D_2) = 1 - \sum_{i=1}^{n} p_i^2 \]

3. 计算整个树的Gini值：
\[ Gini_{tree} = \frac{|D_1|}{|D|} Gini(D_1) + \frac{|D_2|}{|D|} Gini(D_2) \]

假设我们有以下类别分布：
- 左子树 \( D_1 \)：有捷运车站的样本中，类别1的比例为 \( p_1 \)，类别2的比例为 \( p_2 \)。
- 右子树 \( D_2 \)：没有捷运车站的样本中，类别1的比例为 \( p_1 \)，类别2的比例为 \( p_2 \)。

假设具体数据如下：

- 左子树 \( D_1 \)：
- 类别1的比例 \( p_1 = 0.6 \)
- 类别2的比例 \( p_2 = 0.4 \)

- 右子树 \( D_2 \)：
- 类别1的比例 \( p_1 = 0.3 \)
- 类别2的比例 \( p_2 = 0.7 \)

计算左子树 \( D_1 \) 的Gini值：
\[ Gini(D_1) = 1 - (0.6^2 + 0.4^2) = 1 - (0.36 + 0.16) = 1 - 0.52 = 0.48 \]

计算右子树 \( D_2 \) 的Gini值：
\[ Gini(D_2) = 1 - (0.3^2 + 0.7^2) = 1 - (0.09 + 0.49) = 1 - 0.58 = 0.42 \]

假设 \( D_1 \) 和 \( D_2 \) 的样本数量分别为 \( |D_1| = 50 \) 和 \( |D_2| = 50 \)，则整个树的Gini值为：
\[ Gini_{tree} = \frac{50}{100} \times 0.48 + \frac{50}{100} \times 0.42 = 0.24 + 0.21 = 0.45 \]

因此，正确答案是 C: 0.429。