考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

你正在优化一个预测企业“净利润(Net Profit)”的回归模型,由于利润数据分布呈现严重的“尖峰厚尾”且存在明显的异方差性(Heteroscedasticity),你决定对Label进行正态化变换。已知部分企业的净利润为负值(亏损)。下列哪种变换方法最适用于此场景?
A. Box-Cox变换:直接调用 scipy.stats.boxcox。
B. 对数变换:使用 log(y) 消除偏度。
C. Yeo-Johnson变换:使用该算法进行幂变换。
D. 倒数变换:使用1/y 压缩尾部。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

这是一个考察工具适用边界的题。Box-Cox变换和标准对数变换都有一个硬性约束:输入数据必须严格为正数(y > 0)。面对包含0或负值的数据(如净利润、温度),Box-Cox会报错。虽然可以通过y+shift变为正数,但Shift的选择很难最优化。Yeo-Johnson变换(C选项) 是Box-Cox的改进版,专门设计用于处理包含负数和0的数据,能够自动寻找最佳的 λ 参数使数据接近正态分布。