考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某新零售企业通过K-Means算法对千万级会员进行无监督画像聚类,计划根据聚类结果进行差异化营销。在模型评审会上,数据科学家发现:虽然轮廓系数(Silhouette Coefficient)表现良好,但多次运行算法得到的聚类簇成员变化较大(稳定性差),且业务侧反馈聚类中心无法对应具体的业务逻辑。为了解决这一问题,最适合的进阶方案是:
A. 放弃无监督聚类,改为搜集少量专家标注样本,转向基于半监督学习(Semi-supervised Learning)的自训练(Self-training)框架。
B. 增加K-Means的迭代次数并采用K-Means++初始化,确保算法收敛到全局最优解以消除不稳定性。
C. 将无监督聚类作为特征工程的一环,将得到的Cluster ID输入到有监督的转化率预测模型中,以最终业务的指标来筛选最优的聚类超参数。
D. 强制要求每个特征在进入聚类前进行标准化(Standardization),因为无监督学习对量纲的敏感性是导致聚类不稳定的唯一原因。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

无监督学习最大的痛点在于评价指标(如轮廓系数、肘部法则)与业务价值的脱节。题目描述的是典型的无监督学习困境。C选项提出了一种“有监督辅助无监督”的思路,即通过下游任务(Downstream Task)的效果来反馈上游无监督聚类的质量,这在工业界是验证聚类有效性的黄金标准。A选项成本过高且不一定能解决群体划分问题;B选项无法解决目标函数非凸带来的局部最优问题;D选项太片面,稳定性问题还涉及特征选择、噪声及算法本身。