考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

你正在构建一个医疗诊断模型。你分别尝试了 Lasso 回归和决策树(预剪枝)。在分析特征重要性时,你发现了一个有趣的现象:对于某个强相关特征 X_A,Lasso 将其系数压缩为 0(剔除),而决策树却在根节点直接使用了XA进行分裂。造成这种差异的最根本原因是:
A. Lasso 无法处理线性关系,如果 X_A与目标仅存在线性关系,Lasso 会将其剔除;而决策树是非线性模型,可以捕捉
B. 决策树使用了贪心算法(Greedy Search),可能过分关注局部最优;而 Lasso 是全局凸优化
C. 存在另一个与 X_A高度共线性的特征X_B,Lasso 近似随机地选择了XB而剔除了X_A;决策树则可能因为XA的信息增益略高而优先选择了X_A
D. Lasso 的正则化力度过大,导致欠拟合;而决策树的剪枝参数设置过松,导致过拟合
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

Lasso 的特性:在存在强共线性特征(X_A,X_B)时,Lasso 的几何特性(菱形约束)倾向于随机保留其中一个,将另一个系数压为 0。如果它留下了X_B扔掉了X_A,就会出现题目描述的情况。决策树的特性:树模型在分裂节点时,计算的是当前状态下的信息增益(或 Gini 指数下降)。即使X_A和X_B高度相关,只要X_A的增益比X_B高出一点点(哪怕是因为噪声),树都会坚定地选择X_A做分裂点。这是工业界归因分析时的经典坑,Lasso 扔掉的特征不代表不重要,可能是被共线性特征代替了。