考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

给定以下的便利商店选点数据集,并采用CART的分类树算法建构分类树(目标字段为最后一个字段)时,请回答以下题目: (4)当左子树是捷运车站=有,右子树是捷运车站=没有时,请计算此树的Gini值为何?
A. 0.398
B. 0.489
C. 0.429
D. 0.217
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

为了计算分类树的Gini值,我们需要了解Gini指数的计算方法。Gini指数是衡量数据集的不纯度的一种指标,计算公式如下:

\[ Gini(D) = 1 - \sum_{i=1}^{n} p_i^2 \]

其中,\( p_i \) 是类别 \( i \) 在数据集 \( D \) 中的比例。

假设我们有一个数据集 \( D \),并且我们根据“捷运车站=有”和“捷运车站=没有”进行划分。我们需要计算这两个子集的Gini值,然后根据这些值计算整个树的Gini值。

假设数据集 \( D \) 被分成左子树 \( D_1 \) 和右子树 \( D_2 \),并且我们知道每个子树中的类别分布。我们可以使用以下步骤计算Gini值:

1. 计算左子树 \( D_1 \) 的Gini值:
\[ Gini(D_1) = 1 - \sum_{i=1}^{n} p_i^2 \]

2. 计算右子树 \( D_2 \) 的Gini值:
\[ Gini(D_2) = 1 - \sum_{i=1}^{n} p_i^2 \]

3. 计算整个树的Gini值:
\[ Gini_{tree} = \frac{|D_1|}{|D|} Gini(D_1) + \frac{|D_2|}{|D|} Gini(D_2) \]

假设我们有以下类别分布:
- 左子树 \( D_1 \):有捷运车站的样本中,类别1的比例为 \( p_1 \),类别2的比例为 \( p_2 \)。
- 右子树 \( D_2 \):没有捷运车站的样本中,类别1的比例为 \( p_1 \),类别2的比例为 \( p_2 \)。

假设具体数据如下:

- 左子树 \( D_1 \):
- 类别1的比例 \( p_1 = 0.6 \)
- 类别2的比例 \( p_2 = 0.4 \)

- 右子树 \( D_2 \):
- 类别1的比例 \( p_1 = 0.3 \)
- 类别2的比例 \( p_2 = 0.7 \)

计算左子树 \( D_1 \) 的Gini值:
\[ Gini(D_1) = 1 - (0.6^2 + 0.4^2) = 1 - (0.36 + 0.16) = 1 - 0.52 = 0.48 \]

计算右子树 \( D_2 \) 的Gini值:
\[ Gini(D_2) = 1 - (0.3^2 + 0.7^2) = 1 - (0.09 + 0.49) = 1 - 0.58 = 0.42 \]

假设 \( D_1 \) 和 \( D_2 \) 的样本数量分别为 \( |D_1| = 50 \) 和 \( |D_2| = 50 \),则整个树的Gini值为:
\[ Gini_{tree} = \frac{50}{100} \times 0.48 + \frac{50}{100} \times 0.42 = 0.24 + 0.21 = 0.45 \]

因此,正确答案是 C: 0.429。