-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

某保险公司的精算团队在开发车险保费定价模型时，使用线性回归预测理赔金额。特征包括车辆价值、车主年龄、驾驶年限等。他们发现，当加入"车辆品牌"这个高基数类别特征（one-hot编码后产生50多个二元变量）后，模型变得不稳定，对新客户的预测波动很大。技术总监建议使用正则化。以下关于正则化在此场景中理论作用的分析，哪些是正确的？

A. 对于高基数类别特征，L1正则化可以自动选择重要的类别，避免模型过拟合于小众类别

B. L2正则化通过对所有类别特征的系数进行均匀收缩，可以稳定预测并降低方差

C. 加入正则化相当于假设所有类别特征的系数都来自于一个共同的先验分布

D. 正则化可以完全解决类别特征编码带来的维度灾难问题

上一题

下一题

题目解析

题目评论(0)

高基数类别特征是工业界的常见挑战。A正确：L1的正则化路径会淘汰不重要的类别。B正确：L2对相关（同类别的不同取值）特征均匀收缩，是处理高基数特征的常用策略。C正确：这是贝叶斯视角下的解释，正则化对应共享先验。D错误：过于绝对，正则化是缓解而非"完全解决"维度灾难的方法之一。