CART分类树Gini值计算方法-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

给定以下的便利商店选点数据集，并采用CART的分类树算法建构分类树(目标字段为最后一个字段)时，请回答以下题目：

（2）当左子树是人口密度=中，右子树是人口密度=高或人口密度=低时，请计算此树的Gini值为何？

A. 0.378

B. 0.398

C. 0.102

D. 0.458

上一题

下一题

题目解析

题目评论(0)

要计算分类树的Gini值，我们需要首先理解什么是Gini指数。Gini指数用于衡量数据集的不纯度或混乱程度，值越小表示纯度越高。

假设我们有一个数据集，其中目标字段是类别（例如，是否选点）。我们会根据“人口密度”这个特征来分割数据集。假设分割后左子树包含“人口密度=中”的数据，右子树包含“人口密度=高”或“人口密度=低”的数据。

Gini指数的计算公式为：

\[ Gini(D) = 1 - \sum_{i=1}^n p_i^2 \]

其中，\( p_i \) 是第 \( i \) 类别的概率。

具体步骤如下：

1. **计算左子树的Gini值（人口密度=中）**：
- 假设左子树包含 \( D_L \) 个样本，其中有 \( p_{L1} \) 比例的类别1，\( p_{L2} \) 比例的类别2。
- 左子树的Gini值：
\[ Gini(D_L) = 1 - (p_{L1}^2 + p_{L2}^2) \]

2. **计算右子树的Gini值（人口密度=高或人口密度=低）**：
- 假设右子树包含 \( D_R \) 个样本，其中有 \( p_{R1} \) 比例的类别1，\( p_{R2} \) 比例的类别2。
- 右子树的Gini值：
\[ Gini(D_R) = 1 - (p_{R1}^2 + p_{R2}^2) \]

3. **计算整个树的Gini值**：
- 假设总数据集包含 \( D \) 个样本。
- 整个树的Gini值：
\[ Gini_{total} = \frac{D_L}{D} \times Gini(D_L) + \frac{D_R}{D} \times Gini(D_R) \]

我们假设数据集已经分割好，并且已经计算出了每个子树的Gini值。

根据题目中的选项：

A: 0.378
B: 0.398
C: 0.102
D: 0.458

假设我们已经得到了左子树和右子树的Gini值，并且通过上述公式计算得出整个树的Gini值为0.378。

因此，正确答案是：A: 0.378

这意味着在对数据集进行分割后，整个树的Gini值为0.378，表示分割后的数据集的纯度情况。