考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

给定以下的便利商店选点数据集,并采用CART的分类树算法建构分类树(目标字段为最后一个字段)时,请回答以下题目: (1)当左子树是道路距离<=30,右子树是道路距离31~40或>40时,请计算此树的Gini值为何?
A. 0.335
B. 0.247
C. 0.249
D. 0.394
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

要计算分类树的Gini值,我们需要先了解什么是Gini指数以及如何计算。Gini指数是用于衡量数据集的不纯度的一种指标,Gini值越小,数据集越纯。

假设我们有一个数据集,其中包含不同的类别。Gini指数的公式为:

\[ Gini(D) = 1 - \sum_{i=1}^{m} p_i^2 \]

其中,\( p_i \) 是第 \( i \) 类的概率, \( m \) 是类别的总数。

在你的问题中,假设我们有一个数据集并且已经按照“道路距离<=30”和“道路距离31~40或>40”进行了划分。为了计算Gini值,我们需要知道每个子节点中的类别分布。

假设数据集如下:

| 道路距离 | 类别 |
| -------- | ---- |
| 20 | A |
| 25 | A |
| 30 | B |
| 35 | B |
| 40 | B |
| 45 | A |
| 50 | A |

我们可以将数据集划分为两个子集:

左子树(道路距离<=30):

| 道路距离 | 类别 |
| -------- | ---- |
| 20 | A |
| 25 | A |
| 30 | B |

右子树(道路距离31~40或>40):

| 道路距离 | 类别 |
| -------- | ---- |
| 35 | B |
| 40 | B |
| 45 | A |
| 50 | A |

现在我们计算每个子树的Gini值。

左子树的Gini值:

类别A的概率 \( p_A = \frac{2}{3} \)
类别B的概率 \( p_B = \frac{1}{3} \)

\[ Gini(左子树) = 1 - (p_A^2 + p_B^2) = 1 - \left(\left(\frac{2}{3}\right)^2 + \left(\frac{1}{3}\right)^2\right) = 1 - \left(\frac{4}{9} + \frac{1}{9}\right) = 1 - \frac{5}{9} = \frac{4}{9} \approx 0.444 \]

右子树的Gini值:

类别A的概率 \( p_A = \frac{2}{4} = 0.5 \)
类别B的概率 \( p_B = \frac{2}{4} = 0.5 \)

\[ Gini(右子树) = 1 - (p_A^2 + p_B^2) = 1 - (0.5^2 + 0.5^2) = 1 - (0.25 + 0.25) = 1 - 0.5 = 0.5 \]

最后,我们计算整体的Gini值。假设左子树和右子树的样本数量分别为 \( N_{left} \) 和 \( N_{right} \),则整体的Gini值为:

\[ Gini(整体) = \frac{N_{left}}{N_{total}} \times Gini(左子树) + \frac{N_{right}}{N_{total}} \times Gini(右子树) \]

\[ N_{left} = 3, N_{right} = 4, N_{total} = 7 \]

\[ Gini(整体) = \frac{3}{7} \times 0.444 + \frac{4}{7} \times 0.5 \]

\[ Gini(整体) = 0.190 + 0.286 = 0.476 \]

根据计算结果,Gini值约为0.476。题目中的选项A: 0.335 B:0.247 C:0.249 D: 0.394都不匹配,因此可能存在数据或选项错误。

但如果我们需要选一个最接近的答案,D: 0.394 是最接近的。