-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

某新零售企业通过K-Means算法对千万级会员进行无监督画像聚类，计划根据聚类结果进行差异化营销。在模型评审会上，数据科学家发现：虽然轮廓系数（Silhouette Coefficient）表现良好，但多次运行算法得到的聚类簇成员变化较大（稳定性差），且业务侧反馈聚类中心无法对应具体的业务逻辑。为了解决这一问题，最适合的进阶方案是：

A. 放弃无监督聚类，改为搜集少量专家标注样本，转向基于半监督学习（Semi-supervised Learning）的自训练（Self-training）框架。

B. 增加K-Means的迭代次数并采用K-Means++初始化，确保算法收敛到全局最优解以消除不稳定性。

C. 将无监督聚类作为特征工程的一环，将得到的Cluster ID输入到有监督的转化率预测模型中，以最终业务的指标来筛选最优的聚类超参数。

D. 强制要求每个特征在进入聚类前进行标准化（Standardization），因为无监督学习对量纲的敏感性是导致聚类不稳定的唯一原因。

上一题

下一题

题目解析

题目评论(0)

无监督学习最大的痛点在于评价指标（如轮廓系数、肘部法则）与业务价值的脱节。题目描述的是典型的无监督学习困境。C选项提出了一种“有监督辅助无监督”的思路，即通过下游任务（Downstream Task）的效果来反馈上游无监督聚类的质量，这在工业界是验证聚类有效性的黄金标准。A选项成本过高且不一定能解决群体划分问题；B选项无法解决目标函数非凸带来的局部最优问题；D选项太片面，稳定性问题还涉及特征选择、噪声及算法本身。