考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某大型连锁零售集团(以下简称“集团”)计划在2026年第二季度全面升级其会员管理体系,重点在于通过数据驱动实现“千人千面”的精准营销。集团数据分析师小王负责基于2025全年的会员交易数据进行探索性数据分析(EDA)与可视化报告撰写,以支持管理层制定新的积分兑换策略和商品推荐逻辑。 在分析过程中,小王遇到了以下关键场景与挑战: 1. 变量类型复杂:数据集包含会员的基础属性(如性别、会员等级、偏好品类)、行为数据(如最近一次消费时间、消费频率)以及财务数据(如客单价、年度总消费额、单次购物篮商品数量)。 2. 分布形态异常:初步统计发现,“年度总消费额”和“单次购物篮商品数量”呈现明显的右偏分布(长尾),大部分用户消费较低,但少数高净值用户拉高了均值;而“会员满意度指数”(连续型变量)则呈现双峰分布。 3. 多维关系探索:业务部门希望了解不同“会员等级”下的“平均客单价”差异,以及“年龄”与“年度总消费额”之间是否存在线性相关关系。 4. 制图规范需求:最终报告需要向非技术背景的高管展示,要求图表既能准确反映统计特征(如离散程度、偏态),又要直观易懂,避免误导。 作为该项目的数据分析师,你需要依据数据可视化与统计分析的相关原理,解决以下关键问题。 (2)在分析“年度总消费额”这一连续型变量时,小王发现数据严重右偏(Positively Skewed),即存在少量极高消费的用户。为了在可视化报告中准确描述该变量的“集中趋势”,避免极端值对结果的过度影响,最合适的统计指标是?
A. 算术平均数(Mean)
B. 中位数(Median)
C. 标准差(Standard Deviation)
D. 峰度(Kurtosis)
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

当数据分布呈现严重偏态(如右偏长尾)时,算术平均数会被极端大值拉高,无法代表大多数用户的真实水平。中位数(Median)是将数据排序后位于中间位置的值,对极端值不敏感(鲁棒性强),能更好地反映偏态分布数据的集中趋势。标准差描述离散程度,峰度描述分布陡峭程度,均非集中趋势指标。故选B。