考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某电商平台对用户进行 K-Means 聚类得到 5 个群体。为了理解群体特征,训练了一棵决策树(Y=聚类标签,X=用户行为特征)。 结果显示: 根节点分裂特征为“年均消费额”,阈值 5000 元。 左子树(消费<5000)进一步由“登录频率”分裂,最终主要指向 Cluster 0 和 Cluster 1。 右子树(消费>5000)进一步由“退货率”分裂,最终主要指向 Cluster 2, 3, 4。 模型的总体准确率(Accuracy)为 98%。 基于此结果,以下推论合理的是:
A. “年均消费额”是区分这 5 个用户群体最核心、最具判别力的特征。
B. K-Means 聚类的结果在很大程度上是由用户的消费金额决定的,消费金额相似的用戶更容易被聚在同一类。
C. 由于决策树准确率高达 98%,说明 K-Means 生成的这 5 个簇在特征空间中是线性可分的,且簇间边界非常清晰。
D. 对于高消费群体(右子树),“退货率”成为了细分不同价值层级或行为模式(Cluster 2/3/4)的关键次要特征。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

A、B、D 均是对决策树结构和特征的合理业务解读:根节点特征最重要;聚类结果确实反映了消费金额的强相关性;右子树的分裂特征揭示了高消费群内部的差异维度。 选项C推论不合理。决策树(尤其是多层分裂的树)擅长处理非线性边界。准确率高说明决策树能很好地拟合簇的分布,但这并不意味着簇之间是“线性可分”的。相反,K-Means基于距离聚类,其簇边界通常是 Voronoi 图(线性的超平面分割),但决策树通过轴平行的矩形区域去逼近这些形状,高准确率只代表拟合得好,不能反推数据的几何分布一定是“线性可分”的(线性可分通常指存在一个超平面能将两类完全分开,这里是多类且树结构复杂)。更严谨地说,决策树的高准确率证明了聚类特征具有明显的规则性,而非线性可分性(后者是SVM等线性模型的概念)。此外,K-Means本身假设簇是凸形的,但决策树的高准确率更多体现的是特征对标签的强解释力,而非几何上的线性性质。