考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

给定以下的便利商店选点数据集,并采用CART的分类树算法建构分类树(目标字段为最后一个字段)时,请回答以下题目: (4)当左子树是捷运车站=有,右子树是捷运车站=没有时,请计算此树的Gini值为何?
A. 0.398
B. 0.489
C. 0.429
D. 0.217
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

无解析

在CART(Classification and Regression Tree,分类与回归树)算法中,Gini指数用于衡量节点的不纯度。Gini指数越低,节点的纯度越高。

假设我们有一个数据集,其中目标字段是最后一个字段(例如,是否选择便利商店的地点)。我们将数据集按“捷运车站”字段进行分割,得到两个子集:一个子集是“捷运车站=有”,另一个子集是“捷运车站=没有”。

为了计算Gini值,我们需要以下步骤:

1. 计算每个子集的Gini指数。
2. 计算分割后的总体Gini指数。

假设我们的数据集如下:
```
捷运车站 | 目标字段
有 | 是
有 | 是
有 | 否
没有 | 是
没有 | 否
没有 | 否
```

首先,我们计算每个子集的Gini指数。

**左子树(捷运车站=有):**
```
有 | 是
有 | 是
有 | 否
```
在这个子集中,有2个“是”和1个“否”。
Gini指数计算公式为:
\[ Gini = 1 - \sum (p_i^2) \]
其中 \( p_i \) 是每个类别的概率。
对于左子树:
\[ p(是) = \frac{2}{3}, \quad p(否) = \frac{1}{3} \]
\[ Gini(左子树) = 1 - \left( \left( \frac{2}{3} \right)^2 + \left( \frac{1}{3} \right)^2 \right) = 1 - \left( \frac{4}{9} + \frac{1}{9} \right) = 1 - \frac{5}{9} = \frac{4}{9} = 0.444 \]

**右子树(捷运车站=没有):**
```
没有 | 是
没有 | 否
没有 | 否
```
在这个子集中,有1个“是”和2个“否”。
对于右子树:
\[ p(是) = \frac{1}{3}, \quad p(否) = \frac{2}{3} \]
\[ Gini(右子树) = 1 - \left( \left( \frac{1}{3} \right)^2 + \left( \frac{2}{3} \right)^2 \right) = 1 - \left( \frac{1}{9} + \frac{4}{9} \right) = 1 - \frac{5}{9} = \frac{4}{9} = 0.444 \]

接下来,我们计算分割后的总体Gini指数。假设左子树有3个样本,右子树有3个样本,则:
\[ Gini(总体) = \frac{3}{6} \times Gini(左子树) + \frac{3}{6} \times Gini(右子树) = 0.5 \times 0.444 + 0.5 \times 0.444 = 0.444 \]

所以,最终的Gini值是0.444。根据选项,正确答案不在提供的选项中。请检查数据集和计算步骤是否有误或是否存在其他信息。

如果您有更多具体数据或需要进一步的分析,请提供更多细节。