考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某SaaS软件公司希望对客户进行分群运营。数据团队选取了RFM(最近一次消费、消费频率、消费金额)以及“功能使用深度”、“团队协作活跃度”等10个特征,使用K-Means算法将客户分为5类。评估结果显示: 1. 轮廓系数(Silhouette Coefficient)高达0.7,数学上聚类内聚度很高。 2. 运营反馈: 群体B和群体C在实际业务感知中非常相似,针对B群体设计的“增购策略”对C群体同样适用,且两者的客户画像在业务仪表盘上看不出明显差异。 问题: 根据CRISP-DM(跨行业数据挖掘标准流程)及数据分析的最佳实践,为了解决“数学分得开,业务分不开”的问题,数据团队应当采取以下哪些措施?
A. 降低聚类簇数(Reduce K):尝试将K值设定为4,直接合并在业务上表现相似的群体B和C,重新训练并观察轮廓系数的变化,优先满足业务可操作性。
B. 利用可解释性模型进行规则提取:以当前的聚类结果(Cluster ID)作为标签,训练一个单棵决策树(Decision Tree),利用树的节点分裂规则向业务方解释造成B、C两类差异的关键特征是什么。
C. 特征筛选与业务对齐:审查特征列表,检查是否存在“统计上区分度极大但业务上无意义”的噪音特征(如连续登录天数vs总登录天数),这类特征可能主导了距离计算,导致模型分出了无意义的群组。
D. 增加聚类簇数(Increase K):将K值增加到8或更多,试图将群体B和C拆分得更细,直到找出它们之间的显著差异为止。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

本题考察的是无监督学习中“模型评估(Evaluation)”与“业务理解(Business Understanding)”之间的迭代闭环。聚类没有绝对的“真值(Ground Truth)”,数学指标高(如轮廓系数0.7)只能证明簇内距离小、簇间距离大,不能证明分出来的类对业务有用。 • 选项 A 正确(合并同类项): 如果两类在业务策略上无法区分(Actionable),那么强制分开就没有商业价值。CRISP-DM强调业务目标,因此将K降为4,合并B和C是解决“过度细分”最直接的手段。 • 选项 B 正确(事后解释): 很多时候,K-Means基于高维空间的欧氏距离聚类,人类很难直观理解。使用决策树(Decision Tree)这种具有强解释性的模型去“拟合”聚类结果,可以生成如“若消费金额>500且活跃度<2,则为B类”的规则。这能帮助分析师发现:也许B和C在某个业务方不关注的冷门特征(如“API调用次数”)上差异巨大,从而导致了目前的局面。这有助于判断是该合并还是该教育业务方。 • 选项 C 正确(特征审查): 轮廓系数高通常意味着特征空间中有某些维度方差极大。有可能引入了某个“伪特征”(Artifact),例如某类用户ID是偶数,另一类是奇数(极端比喻),或者某个与业务目标无关的技术指标。如果该特征主导了距离计算,就会出现“数学上分得开,业务上看不懂”的情况。因此需要回到数据准备阶段筛除无关特征。 • 选项 D 错误: B和C已经分不开了,增加K值(细分)通常会引入更多的噪声和更琐碎的群组,不仅无法解决B和C相似的问题,还会增加运营制定策略的复杂度,与“落地”目标背道而驰。