-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

某大型连锁零售集团在2026年面临激烈的市场竞争，为了优化供应链管理和提升客户忠诚度，集团数据科学部收集了旗下500家门店及百万级会员的详细运营数据。数据集主要包含两个部分： 1.商品维度数据：涵盖3000种SKU的月度销售指标，包括销售额、销售量、毛利率、库存周转天数、促销频率、退货率以及供应商交货准时率。 2.用户维度数据：涵盖会员的近期消费行为，包括最近一次消费时间（Recency）、消费频率（Frequency）、消费金额（Monetary）、浏览未购买次数、客诉次数以及会员等级。数据分析师小李负责利用统计分析技术挖掘数据价值，具体任务涉及商品分类策略制定、用户画像构建、流失预警及关键驱动因素识别。作为该项目的数据分析师，你需要依据主成分分析、因子分析、决策树、聚类等技术的原理，解决以下关键问题。（2）为了精准营销，需要基于RFM模型（R、F、M三个变量）将用户划分为“高价值用户”、“潜力用户”、“一般维持用户”和“流失风险用户”等类别。小李决定直接使用K-Means聚类算法对用户进行细分。在确定最佳聚类数目（K值）时，他绘制了“肘部法则”图（Elbow Method），横轴为K值（1到10），纵轴为误差平方和（SSE）。图中显示：K=1到3时SSE下降极快，K=4时出现明显的拐点（斜率骤减），K=5之后SSE下降趋于平缓。同时，业务部门希望类别不宜过多以便管理。基于此，小李应选择多少个聚类？

A. 1个，因为此时SSE最大，代表所有用户作为一个整体。

B. 3个，因为在拐点之前，下降速度最快，区分度最高。

C. 4个，因为这是“肘部”拐点，兼顾了模型拟合度与复杂度，且符合业务管理需求。

D. 10个，因为K值越大，SSE越小，模型越精确，能区分出最细微的用户差异。

上一题

下一题

题目解析

题目评论(0)

A选项错误：K=1意味着没有聚类，所有点归为一类，失去了细分的意义，且此时SSE最大（总变异）。 B选项错误：虽然K=3时下降快，但肘部法则的核心是寻找“边际收益递减”的点。在拐点处（K=4），增加K值带来的SSE减少幅度开始显著变小，说明再增加类别对模型提升有限，却增加了复杂度。 C选项正确：肘部法则建议选取曲线拐点处的K值。在K=4处出现明显拐点，意味着此时增加聚类数带来的信息增益开始降低。结合业务部门“类别不宜过多”的需求，K=4是最佳平衡点。 D选项错误：虽然K值越大SSE确实越小（当K等于样本数时SSE为0），但这会导致过拟合，每个用户自成一类，失去了聚类的概括意义，且违背了业务管理便捷性的原则。故选C。