考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某分类变量“职业”中,95%的样本为“学生”,其余5%分散在十几种其他职业中,且其中有几个样本标记为“未知_测试”。针对这种情况,最优先的处理步骤归类于?
A. 连续变量中心标准化
B. 分类变量概化处理
C. 变量降维
D. WoE 转换
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

题目中提到分类变量含有“稀有水平”(出现次数少的类别)和“错误值”(未知_测试),这属于“单变量数据问题”中的分类变量问题。对应的预处理步骤是“分类变量概化处理”(如合并稀有类别、修正错误值)。