新用户注册
备考刷题,请到
CDA认证小程序
特征工程的核心是“业务翻译”。题干明确指出“未发生过理赔的用户该字段为空”,这意味着这里的NaN不是随机丢失(MCAR),而是有明确业务含义的“0”。尽管XGBoost(C选项)可以处理缺失值(默认分到增益大的一侧),但在这种明确知道缺失代表“无/0”的情况下,显式地填充为0(B选项)能给模型提供更清晰的单调性信号,且消除了模型需要从数据中“猜”出NaN代表0的不确定性。A和D都是错误的,因为这会把“没出过险的人”强行变成“平均水平”或“预测值”,扭曲了事实。