考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某大型连锁零售集团在2026年面临激烈的市场竞争,为了优化供应链管理和提升客户忠诚度,集团数据科学部收集了旗下500家门店及百万级会员的详细运营数据。数据集主要包含两个部分: 1.商品维度数据:涵盖3000种SKU的月度销售指标,包括销售额、销售量、毛利率、库存周转天数、促销频率、退货率以及供应商交货准时率。 2.用户维度数据:涵盖会员的近期消费行为,包括最近一次消费时间(Recency)、消费频率(Frequency)、消费金额(Monetary)、浏览未购买次数、客诉次数以及会员等级。 数据分析师小李负责利用统计分析技术挖掘数据价值,具体任务涉及商品分类策略制定、用户画像构建、流失预警及关键驱动因素识别。 作为该项目的数据分析师,你需要依据主成分分析、因子分析、决策树、聚类等技术的原理,解决以下关键问题。 (2)为了精准营销,需要基于RFM模型(R、F、M三个变量)将用户划分为“高价值用户”、“潜力用户”、“一般维持用户”和“流失风险用户”等类别。小李决定直接使用K-Means聚类算法对用户进行细分。在确定最佳聚类数目(K值)时,他绘制了“肘部法则”图(Elbow Method),横轴为K值(1到10),纵轴为误差平方和(SSE)。图中显示:K=1到3时SSE下降极快,K=4时出现明显的拐点(斜率骤减),K=5之后SSE下降趋于平缓。同时,业务部门希望类别不宜过多以便管理。基于此,小李应选择多少个聚类?
A. 1个,因为此时SSE最大,代表所有用户作为一个整体。
B. 3个,因为在拐点之前,下降速度最快,区分度最高。
C. 4个,因为这是“肘部”拐点,兼顾了模型拟合度与复杂度,且符合业务管理需求。
D. 10个,因为K值越大,SSE越小,模型越精确,能区分出最细微的用户差异。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

A选项错误:K=1意味着没有聚类,所有点归为一类,失去了细分的意义,且此时SSE最大(总变异)。 B选项错误:虽然K=3时下降快,但肘部法则的核心是寻找“边际收益递减”的点。在拐点处(K=4),增加K值带来的SSE减少幅度开始显著变小,说明再增加类别对模型提升有限,却增加了复杂度。 C选项正确:肘部法则建议选取曲线拐点处的K值。在K=4处出现明显拐点,意味着此时增加聚类数带来的信息增益开始降低。结合业务部门“类别不宜过多”的需求,K=4是最佳平衡点。 D选项错误:虽然K值越大SSE确实越小(当K等于样本数时SSE为0),但这会导致过拟合,每个用户自成一类,失去了聚类的概括意义,且违背了业务管理便捷性的原则。 故选C。