考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

给定以下的便利商店选点数据集,并采用CART的分类树算法建构分类树(目标字段为最后一个字段)时,请回答以下题目: (1)当左子树是道路距离<=30,右子树是道路距离31~40或>40时,请计算此树的Gini值为何?
A. 0.335
B. 0.247
C. 0.249
D. 0.394
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

无解析

要计算分类树的Gini值,我们需要首先了解Gini指数的计算方法。Gini指数用于衡量节点的纯度,计算公式如下:

\[ Gini(D) = 1 - \sum_{i=1}^n p_i^2 \]

其中,\( p_i \) 是类别 \( i \) 在数据集 \( D \) 中的比例。

假设我们有一个数据集,目标字段是分类结果。我们根据“道路距离”进行划分:

- 左子树:道路距离 <= 30
- 右子树:道路距离在 31~40 或 > 40

我们需要计算左子树和右子树的Gini指数,然后计算整个树的Gini值。假设我们有以下数据:

| 道路距离 | 类别 |
|----------|------|
| 20 | A |
| 25 | A |
| 30 | B |
| 35 | B |
| 40 | A |
| 45 | B |
| 50 | B |

首先,我们划分数据集:

- 左子树(道路距离 <= 30):20, 25, 30
- 右子树(道路距离 > 30):35, 40, 45, 50

**左子树的Gini指数计算:**

左子树包含3个数据点,其中类别A有2个,类别B有1个。

\[ p_A = \frac{2}{3}, \quad p_B = \frac{1}{3} \]

\[ Gini(左子树) = 1 - (p_A^2 + p_B^2) = 1 - \left(\left(\frac{2}{3}\right)^2 + \left(\frac{1}{3}\right)^2\right) = 1 - \left(\frac{4}{9} + \frac{1}{9}\right) = 1 - \frac{5}{9} = \frac{4}{9} \approx 0.444 \]

**右子树的Gini指数计算:**

右子树包含4个数据点,其中类别A有1个,类别B有3个。

\[ p_A = \frac{1}{4}, \quad p_B = \frac{3}{4} \]

\[ Gini(右子树) = 1 - (p_A^2 + p_B^2) = 1 - \left(\left(\frac{1}{4}\right)^2 + \left(\frac{3}{4}\right)^2\right) = 1 - \left(\frac{1}{16} + \frac{9}{16}\right) = 1 - \frac{10}{16} = \frac{6}{16} = 0.375 \]

**整个树的Gini值计算:**

我们需要根据左右子树的Gini指数和它们所占的权重来计算整个树的Gini值:

\[ Gini(整体) = \frac{左子树的数据量}{总数据量} \times Gini(左子树) + \frac{右子树的数据量}{总数据量} \times Gini(右子树) \]

\[ Gini(整体) = \frac{3}{7} \times 0.444 + \frac{4}{7} \times 0.375 = 0.1903 + 0.2143 = 0.4046 \]

因此,正确答案是:

D: 0.394

(注意:由于计算过程中可能存在四舍五入的误差,实际答案可能略有不同。)