-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

某SaaS软件公司希望对客户进行分群运营。数据团队选取了RFM（最近一次消费、消费频率、消费金额）以及“功能使用深度”、“团队协作活跃度”等10个特征，使用K-Means算法将客户分为5类。评估结果显示： 1. 轮廓系数（Silhouette Coefficient）高达0.7，数学上聚类内聚度很高。 2. 运营反馈：群体B和群体C在实际业务感知中非常相似，针对B群体设计的“增购策略”对C群体同样适用，且两者的客户画像在业务仪表盘上看不出明显差异。问题：根据CRISP-DM（跨行业数据挖掘标准流程）及数据分析的最佳实践，为了解决“数学分得开，业务分不开”的问题，数据团队应当采取以下哪些措施？

A. 降低聚类簇数（Reduce K）：尝试将K值设定为4，直接合并在业务上表现相似的群体B和C，重新训练并观察轮廓系数的变化，优先满足业务可操作性。

B. 利用可解释性模型进行规则提取：以当前的聚类结果（Cluster ID）作为标签，训练一个单棵决策树（Decision Tree），利用树的节点分裂规则向业务方解释造成B、C两类差异的关键特征是什么。

C. 特征筛选与业务对齐：审查特征列表，检查是否存在“统计上区分度极大但业务上无意义”的噪音特征（如连续登录天数vs总登录天数），这类特征可能主导了距离计算，导致模型分出了无意义的群组。

D. 增加聚类簇数（Increase K）：将K值增加到8或更多，试图将群体B和C拆分得更细，直到找出它们之间的显著差异为止。

上一题

下一题

题目解析

题目评论(0)

本题考察的是无监督学习中“模型评估（Evaluation）”与“业务理解（Business Understanding）”之间的迭代闭环。聚类没有绝对的“真值（Ground Truth）”，数学指标高（如轮廓系数0.7）只能证明簇内距离小、簇间距离大，不能证明分出来的类对业务有用。 • 选项 A 正确（合并同类项）：如果两类在业务策略上无法区分（Actionable），那么强制分开就没有商业价值。CRISP-DM强调业务目标，因此将K降为4，合并B和C是解决“过度细分”最直接的手段。 • 选项 B 正确（事后解释）：很多时候，K-Means基于高维空间的欧氏距离聚类，人类很难直观理解。使用决策树（Decision Tree）这种具有强解释性的模型去“拟合”聚类结果，可以生成如“若消费金额>500且活跃度<2，则为B类”的规则。这能帮助分析师发现：也许B和C在某个业务方不关注的冷门特征（如“API调用次数”）上差异巨大，从而导致了目前的局面。这有助于判断是该合并还是该教育业务方。 • 选项 C 正确（特征审查）：轮廓系数高通常意味着特征空间中有某些维度方差极大。有可能引入了某个“伪特征”（Artifact），例如某类用户ID是偶数，另一类是奇数（极端比喻），或者某个与业务目标无关的技术指标。如果该特征主导了距离计算，就会出现“数学上分得开，业务上看不懂”的情况。因此需要回到数据准备阶段筛除无关特征。 • 选项 D 错误： B和C已经分不开了，增加K值（细分）通常会引入更多的噪声和更琐碎的群组，不仅无法解决B和C相似的问题，还会增加运营制定策略的复杂度，与“落地”目标背道而驰。