本题考察的是无监督学习中“模型评估(Evaluation)”与“业务理解(Business Understanding)”之间的迭代闭环。聚类没有绝对的“真值(Ground Truth)”,数学指标高(如轮廓系数0.7)只能证明簇内距离小、簇间距离大,不能证明分出来的类对业务有用。
• 选项 A 正确(合并同类项): 如果两类在业务策略上无法区分(Actionable),那么强制分开就没有商业价值。CRISP-DM强调业务目标,因此将K降为4,合并B和C是解决“过度细分”最直接的手段。
• 选项 B 正确(事后解释): 很多时候,K-Means基于高维空间的欧氏距离聚类,人类很难直观理解。使用决策树(Decision Tree)这种具有强解释性的模型去“拟合”聚类结果,可以生成如“若消费金额>500且活跃度<2,则为B类”的规则。这能帮助分析师发现:也许B和C在某个业务方不关注的冷门特征(如“API调用次数”)上差异巨大,从而导致了目前的局面。这有助于判断是该合并还是该教育业务方。
• 选项 C 正确(特征审查): 轮廓系数高通常意味着特征空间中有某些维度方差极大。有可能引入了某个“伪特征”(Artifact),例如某类用户ID是偶数,另一类是奇数(极端比喻),或者某个与业务目标无关的技术指标。如果该特征主导了距离计算,就会出现“数学上分得开,业务上看不懂”的情况。因此需要回到数据准备阶段筛除无关特征。
• 选项 D 错误: B和C已经分不开了,增加K值(细分)通常会引入更多的噪声和更琐碎的群组,不仅无法解决B和C相似的问题,还会增加运营制定策略的复杂度,与“落地”目标背道而驰。