考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某大型连锁零售集团在2026年面临激烈的市场竞争,为了优化供应链管理和提升客户忠诚度,集团数据科学部收集了旗下500家门店及百万级会员的详细运营数据。数据集主要包含两个部分: 1.商品维度数据:涵盖3000种SKU的月度销售指标,包括销售额、销售量、毛利率、库存周转天数、促销频率、退货率以及供应商交货准时率。 2.用户维度数据:涵盖会员的近期消费行为,包括最近一次消费时间(Recency)、消费频率(Frequency)、消费金额(Monetary)、浏览未购买次数、客诉次数以及会员等级。 数据分析师小李负责利用统计分析技术挖掘数据价值,具体任务涉及商品分类策略制定、用户画像构建、流失预警及关键驱动因素识别。 作为该项目的数据分析师,你需要依据主成分分析、因子分析、决策树、聚类等技术的原理,解决以下关键问题。 (3)集团发现部分高价值用户流失严重。小李需要构建一个决策树模型,找出导致用户流失(二分类变量:流失/未流失)的关键规则路径,例如“若近30天浏览未购买>5次 且 客诉次数>1,则流失概率极高”。在构建用户流失预警的决策树模型时,算法需要选择最佳分裂属性。假设当前节点包含100个用户,其中正例(流失)50,负例(未流失)50。现有两个候选分裂属性: 方案A:左子集(60样本):含正例10,负例50。右子集(40样本):含正例40,负例0。 方案B:左子集(50样本):含正例25,负例25。右子集(50样本):含正例25,负例25。 关于信息增益(Information Gain)的计算与理解,以下说法正确的是?
A. 方案B的信息增益大于方案A,因为方案B将数据分得更均匀。
B. 方案A的信息增益大于方案B,因为方案A分裂后的子节点纯度更高(右节点全为流失,左节点大部分未流失)。
C. 决策树只能处理分类变量,无法处理“浏览未购买次数”这样的连续变量。
D. 信息增益越大,表示分裂后数据的混乱程度(熵)越高。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

A选项错误:方案B分裂后,两个子节点的分布(25正25负)与父节点完全一致,纯度没有提升,信息增益为0。方案A分裂后,子节点纯度显著提升,信息增益大。 B选项正确:信息增益 = 父节点熵 - 加权平均子节点熵。方案A中,右子节点纯度为100%(全流失),左子节点纯度也较高(10/60流失),加权后的子节点熵远小于父节点熵,因此信息增益大。决策树倾向于选择信息增益大的属性进行分裂。 C选项错误:决策树(如CART算法)可以处理连续变量。它会自动寻找最佳分裂点(阈值),将连续变量转化为二值分裂(如:浏览次数 > 5)。 D选项错误:信息增益越大,意味着分裂后数据的混乱程度(熵)降低得越多,即子节点的纯度越高,而不是越高。 故选B。