考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

如果“受教育程度”作为分类有序变量,存在缺失值,同时分布偏态严重,该用什么值来填充比较合理?
A. 均值
B. 中位数
C. 众数
D. 最大值
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

相关关系指的是变量之间存在不确定是数量关系,即一个变量的取值不能由另一个变量唯一确定,对于正相关关系,两个是同增同减的,对于负相关关系,则是一个变量增大,另一个则减小

在处理缺失值时,特别是当变量是分类有序变量且具有偏态分布时,选择合适的填充值是非常重要的。对于“受教育程度”这样的有序分类变量,我们需要选择能够合理反映数据特征的填充值。

- **均值(A)**:不适用于有序分类变量,因为均值通常用于连续数值型数据。

- **中位数(B)**:中位数是偏态分布数据的一个稳健测量,适用于有顺序关系的数据。它不受极端值的影响,因此在偏态分布的情况下是一个较好的选择。

- **众数(C)**:众数是最常出现的值,适用于分类数据且可以用于有序分类变量。如果某一教育程度特别常见,那么用众数填充可能具有代表性。

- **最大值(D)**:最大值通常不用于填充缺失值,特别是在偏态分布情况下,因为它不能代表数据的中心趋势。

**专业分析**:

对于有序分类变量,如“受教育程度”,中位数和众数是较为合理的选择。由于数据是有序的,中位数能够提供一种稳健的测量。众数则在该变量某一水平特别常见时非常有用。

因此,**中位数(B)和众数(C)**是比较合理的选择。在偏态分布的特定情况下,更倾向使用中位数,因为它更能反映数据的中心趋势,而不被极端值影响。

最终选择可以根据实际数据情况和业务需求综合考虑,如如果某一教育程度非常占优势,用众数可能更合理;如果需要稳健性,则选择中位数。