-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

某大型连锁零售集团在2026年面临激烈的市场竞争，为了优化供应链管理和提升客户忠诚度，集团数据科学部收集了旗下500家门店及百万级会员的详细运营数据。数据集主要包含两个部分： 1.商品维度数据：涵盖3000种SKU的月度销售指标，包括销售额、销售量、毛利率、库存周转天数、促销频率、退货率以及供应商交货准时率。 2.用户维度数据：涵盖会员的近期消费行为，包括最近一次消费时间（Recency）、消费频率（Frequency）、消费金额（Monetary）、浏览未购买次数、客诉次数以及会员等级。数据分析师小李负责利用统计分析技术挖掘数据价值，具体任务涉及商品分类策略制定、用户画像构建、流失预警及关键驱动因素识别。作为该项目的数据分析师，你需要依据主成分分析、因子分析、决策树、聚类等技术的原理，解决以下关键问题。（3）集团发现部分高价值用户流失严重。小李需要构建一个决策树模型，找出导致用户流失（二分类变量：流失/未流失）的关键规则路径，例如“若近30天浏览未购买>5次且客诉次数>1，则流失概率极高”。在构建用户流失预警的决策树模型时，算法需要选择最佳分裂属性。假设当前节点包含100个用户，其中正例（流失）50，负例（未流失）50。现有两个候选分裂属性：方案A：左子集（60样本）：含正例10，负例50。右子集（40样本）：含正例40，负例0。方案B：左子集（50样本）：含正例25，负例25。右子集（50样本）：含正例25，负例25。关于信息增益（Information Gain）的计算与理解，以下说法正确的是？

A. 方案B的信息增益大于方案A，因为方案B将数据分得更均匀。

B. 方案A的信息增益大于方案B，因为方案A分裂后的子节点纯度更高（右节点全为流失，左节点大部分未流失）。

C. 决策树只能处理分类变量，无法处理“浏览未购买次数”这样的连续变量。

D. 信息增益越大，表示分裂后数据的混乱程度（熵）越高。

上一题

下一题

题目解析

题目评论(0)

A选项错误：方案B分裂后，两个子节点的分布（25正25负）与父节点完全一致，纯度没有提升，信息增益为0。方案A分裂后，子节点纯度显著提升，信息增益大。 B选项正确：信息增益 = 父节点熵 - 加权平均子节点熵。方案A中，右子节点纯度为100%（全流失），左子节点纯度也较高（10/60流失），加权后的子节点熵远小于父节点熵，因此信息增益大。决策树倾向于选择信息增益大的属性进行分裂。 C选项错误：决策树（如CART算法）可以处理连续变量。它会自动寻找最佳分裂点（阈值），将连续变量转化为二值分裂（如：浏览次数 > 5）。 D选项错误：信息增益越大，意味着分裂后数据的混乱程度（熵）降低得越多，即子节点的纯度越高，而不是越高。故选B。