考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

给定以下的便利商店选点数据集,并采用CART的分类树算法建构分类树(目标字段为最后一个字段)时,请回答以下题目: (3)当左子树是区域类别=住宅区,右子树是区域类别=商业区时,请计算此树的Gini值为何?
A. 0.457
B. 0.367
C. 0.459
D. 0.347
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

无解析

为了计算分类树的Gini值,我们需要了解Gini系数的计算公式。Gini系数用于衡量数据集中不同类别的纯度,其公式如下:

\[ Gini(D) = 1 - \sum_{i=1}^k p_i^2 \]

其中,\(D\) 是数据集,\(k\) 是类别的数量,\(p_i\) 是第 \(i\) 类别的概率。

假设我们有一个数据集,其中目标字段(最后一个字段)是类别标签。数据集被分为左子树(区域类别=住宅区)和右子树(区域类别=商业区)。我们需要计算这两个子树的Gini系数,并结合它们的权重来计算整个树的Gini值。

假设数据如下(具体数据需要从题目所给的链接中获取,这里假设一些数据来进行计算):

- 住宅区(左子树):类别A有3个,类别B有2个
- 商业区(右子树):类别A有1个,类别B有3个

首先,计算左子树的Gini值:

\[ Gini(左子树) = 1 - (p_A^2 + p_B^2) \]
\[ p_A = \frac{3}{5}, p_B = \frac{2}{5} \]
\[ Gini(左子树) = 1 - \left(\left(\frac{3}{5}\right)^2 + \left(\frac{2}{5}\right)^2\right) \]
\[ = 1 - \left(\frac{9}{25} + \frac{4}{25}\right) \]
\[ = 1 - \frac{13}{25} \]
\[ = 1 - 0.52 \]
\[ = 0.48 \]

然后,计算右子树的Gini值:

\[ Gini(右子树) = 1 - (p_A^2 + p_B^2) \]
\[ p_A = \frac{1}{4}, p_B = \frac{3}{4} \]
\[ Gini(右子树) = 1 - \left(\left(\frac{1}{4}\right)^2 + \left(\frac{3}{4}\right)^2\right) \]
\[ = 1 - \left(\frac{1}{16} + \frac{9}{16}\right) \]
\[ = 1 - \frac{10}{16} \]
\[ = 1 - 0.625 \]
\[ = 0.375 \]

最后,计算整个树的Gini值。假设左子树和右子树的数据量分别为5和4:

\[ Gini(整棵树) = \frac{5}{9} \times 0.48 + \frac{4}{9} \times 0.375 \]
\[ = 0.2667 + 0.1667 \]
\[ = 0.4334 \]

因此,最接近的选项是C: 0.459。

答案:C: 0.459