-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

某电商平台对用户进行 K-Means 聚类得到 5 个群体。为了理解群体特征，训练了一棵决策树（Y=聚类标签，X=用户行为特征）。结果显示：根节点分裂特征为“年均消费额”，阈值 5000 元。左子树（消费<5000）进一步由“登录频率”分裂，最终主要指向 Cluster 0 和 Cluster 1。右子树（消费>5000）进一步由“退货率”分裂，最终主要指向 Cluster 2, 3, 4。模型的总体准确率（Accuracy）为 98%。基于此结果，以下推论合理的是：

A. “年均消费额”是区分这 5 个用户群体最核心、最具判别力的特征。

B. K-Means 聚类的结果在很大程度上是由用户的消费金额决定的，消费金额相似的用戶更容易被聚在同一类。

C. 由于决策树准确率高达 98%，说明 K-Means 生成的这 5 个簇在特征空间中是线性可分的，且簇间边界非常清晰。

D. 对于高消费群体（右子树），“退货率”成为了细分不同价值层级或行为模式（Cluster 2/3/4）的关键次要特征。

上一题

下一题

题目解析

题目评论(0)

A、B、D 均是对决策树结构和特征的合理业务解读：根节点特征最重要；聚类结果确实反映了消费金额的强相关性；右子树的分裂特征揭示了高消费群内部的差异维度。选项C推论不合理。决策树（尤其是多层分裂的树）擅长处理非线性边界。准确率高说明决策树能很好地拟合簇的分布，但这并不意味着簇之间是“线性可分”的。相反，K-Means基于距离聚类，其簇边界通常是 Voronoi 图（线性的超平面分割），但决策树通过轴平行的矩形区域去逼近这些形状，高准确率只代表拟合得好，不能反推数据的几何分布一定是“线性可分”的（线性可分通常指存在一个超平面能将两类完全分开，这里是多类且树结构复杂）。更严谨地说，决策树的高准确率证明了聚类特征具有明显的规则性，而非线性可分性（后者是SVM等线性模型的概念）。此外，K-Means本身假设簇是凸形的，但决策树的高准确率更多体现的是特征对标签的强解释力，而非几何上的线性性质。