考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

下列哪项操作主要是为了解决“单变量数据分布问题”,且与后续选取的统计分析模型(如对正态分布有要求的模型)密切相关?
A. 识别并删除 user_id 重复的记录
B. 对偏态分布的连续变量进行对数变换(Log Transform)
C. 将两个 dataframe 进行内连接
D. 填充分类变量的众数
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

“对被解释连续变量或输入连续变量的数据分布修改”属于“单变量数据分布问题”,且知识点明确指出“此类问题与后续选取的统计分析模型有关系”。对偏态数据进行对数变换是为了使其分布更接近正态分布,以满足某些模型的假设。A、D属于基础清洗(单变量数据问题),C属于数据整合。