考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某大型连锁零售集团(以下简称“集团”)计划在2026年第二季度全面升级其会员管理体系,重点在于通过数据驱动实现“千人千面”的精准营销。集团数据分析师小王负责基于2025全年的会员交易数据进行探索性数据分析(EDA)与可视化报告撰写,以支持管理层制定新的积分兑换策略和商品推荐逻辑。 在分析过程中,小王遇到了以下关键场景与挑战: 1. 变量类型复杂:数据集包含会员的基础属性(如性别、会员等级、偏好品类)、行为数据(如最近一次消费时间、消费频率)以及财务数据(如客单价、年度总消费额、单次购物篮商品数量)。 2. 分布形态异常:初步统计发现,“年度总消费额”和“单次购物篮商品数量”呈现明显的右偏分布(长尾),大部分用户消费较低,但少数高净值用户拉高了均值;而“会员满意度指数”(连续型变量)则呈现双峰分布。 3. 多维关系探索:业务部门希望了解不同“会员等级”下的“平均客单价”差异,以及“年龄”与“年度总消费额”之间是否存在线性相关关系。 4. 制图规范需求:最终报告需要向非技术背景的高管展示,要求图表既能准确反映统计特征(如离散程度、偏态),又要直观易懂,避免误导。 作为该项目的数据分析师,你需要依据数据可视化与统计分析的相关原理,解决以下关键问题。 (4)小王在分析“年龄”与“年度总消费额”的相关性时,计算了皮尔逊相关系数(Pearson Correlation Coefficient),结果为0.15。但在绘制散点图时,他发现数据点主要集中在左下角,右上角有极少数点,且整体呈现明显的曲线趋势而非直线。结合前文提到的数据右偏特征,下列关于该分析结论的判断正确的是?
A. 相关系数0.15说明两者完全无关,无需进一步处理
B. 皮尔逊相关系数适用于衡量非线性关系,结果准确反映了强相关性
C. 由于数据存在严重偏态且可能为非线性关系,皮尔逊相关系数可能低估了实际关联强度,应考虑先对数据进行对数变换或使用斯皮尔曼等级相关系数
D. 应直接剔除右上角的少数高消费用户,重新计算皮尔逊相关系数以获得更高值
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

皮尔逊相关系数主要衡量两个变量间的线性相关程度,且对异常值和偏态分布非常敏感。当数据严重偏态或存在非线性关系(如曲线)时,皮尔逊系数往往不能真实反映变量间的关联强度(可能低估)。此时,正确的做法是对偏态数据进行变换(如对数变换使其接近正态分布)后再分析,或者使用不依赖分布假设的斯皮尔曼(Spearman)等级相关系数。直接剔除数据(D)缺乏依据,认为完全无关(A)或适用非线性(B)均错误。故选C。