CDA LEVEL Ⅲ 模拟题数据分析-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

给定以下的便利商店选点数据集，并采用CART的分类树算法建构分类树(目标字段为最后一个字段)时，请回答以下题目：

（4）当左子树是捷运车站=有，右子树是捷运车站=没有时，请计算此树的Gini值为何？

A. 0.398

B. 0.489

C. 0.429

D. 0.217

上一题

下一题

题目解析

题目评论(0)

无解析

在CART（Classification and Regression Tree，分类与回归树）算法中，Gini指数用于衡量节点的不纯度。Gini指数越低，节点的纯度越高。

假设我们有一个数据集，其中目标字段是最后一个字段（例如，是否选择便利商店的地点）。我们将数据集按“捷运车站”字段进行分割，得到两个子集：一个子集是“捷运车站=有”，另一个子集是“捷运车站=没有”。

为了计算Gini值，我们需要以下步骤：

1. 计算每个子集的Gini指数。
2. 计算分割后的总体Gini指数。

假设我们的数据集如下：
```
捷运车站 | 目标字段
有 | 是
有 | 是
有 | 否
没有 | 是
没有 | 否
没有 | 否
```

首先，我们计算每个子集的Gini指数。

**左子树（捷运车站=有）：**
```
有 | 是
有 | 是
有 | 否
```
在这个子集中，有2个“是”和1个“否”。
Gini指数计算公式为：
\[ Gini = 1 - \sum (p_i^2) \]
其中 \( p_i \) 是每个类别的概率。
对于左子树：
\[ p(是) = \frac{2}{3}, \quad p(否) = \frac{1}{3} \]
\[ Gini(左子树) = 1 - \left( \left( \frac{2}{3} \right)^2 + \left( \frac{1}{3} \right)^2 \right) = 1 - \left( \frac{4}{9} + \frac{1}{9} \right) = 1 - \frac{5}{9} = \frac{4}{9} = 0.444 \]

**右子树（捷运车站=没有）：**
```
没有 | 是
没有 | 否
没有 | 否
```
在这个子集中，有1个“是”和2个“否”。
对于右子树：
\[ p(是) = \frac{1}{3}, \quad p(否) = \frac{2}{3} \]
\[ Gini(右子树) = 1 - \left( \left( \frac{1}{3} \right)^2 + \left( \frac{2}{3} \right)^2 \right) = 1 - \left( \frac{1}{9} + \frac{4}{9} \right) = 1 - \frac{5}{9} = \frac{4}{9} = 0.444 \]

接下来，我们计算分割后的总体Gini指数。假设左子树有3个样本，右子树有3个样本，则：
\[ Gini(总体) = \frac{3}{6} \times Gini(左子树) + \frac{3}{6} \times Gini(右子树) = 0.5 \times 0.444 + 0.5 \times 0.444 = 0.444 \]

所以，最终的Gini值是0.444。根据选项，正确答案不在提供的选项中。请检查数据集和计算步骤是否有误或是否存在其他信息。

如果您有更多具体数据或需要进一步的分析，请提供更多细节。