考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在数据预处理过程中,对于分类变量的概化处理,以下哪一项描述是正确的?
A. 简单合并方法要求合并后的大类样本占比必须超过10%,且样本量不低于100个。
B. 根据事实合并方法仅需考虑被解释变量的均值,无需考虑P值或Logit值。
C. 基于算法的合并方法通常与分箱方法联合使用,用于处理连续变量和分类变量的水平合并。
D. 对于类别型变量,如果取值个数较多,直接删除占比少的水平是最佳处理方式。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

A. 错误。简单合并方法要求合并后的大类样本占比大于5%,且样本量不低于50个,而非10%和100个。B. 错误。根据事实合并方法需要考虑被解释变量的均值、P值和Logit值,而不仅仅是均值。 C. 正确。基于算法的合并方法通常与分箱方法联合使用,分箱方法可用于处理连续变量和分类变量的水平合并。D. 错误。对于类别型变量,如果取值个数较多,通常采用合并的方法,而不是直接删除占比少的水平。