-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

某大型连锁零售集团（以下简称“集团”）计划在2026年第二季度全面升级其会员管理体系，重点在于通过数据驱动实现“千人千面”的精准营销。集团数据分析师小王负责基于2025全年的会员交易数据进行探索性数据分析（EDA）与可视化报告撰写，以支持管理层制定新的积分兑换策略和商品推荐逻辑。在分析过程中，小王遇到了以下关键场景与挑战： 1. 变量类型复杂：数据集包含会员的基础属性（如性别、会员等级、偏好品类）、行为数据（如最近一次消费时间、消费频率）以及财务数据（如客单价、年度总消费额、单次购物篮商品数量）。 2. 分布形态异常：初步统计发现，“年度总消费额”和“单次购物篮商品数量”呈现明显的右偏分布（长尾），大部分用户消费较低，但少数高净值用户拉高了均值；而“会员满意度指数”（连续型变量）则呈现双峰分布。 3. 多维关系探索：业务部门希望了解不同“会员等级”下的“平均客单价”差异，以及“年龄”与“年度总消费额”之间是否存在线性相关关系。 4. 制图规范需求：最终报告需要向非技术背景的高管展示，要求图表既能准确反映统计特征（如离散程度、偏态），又要直观易懂，避免误导。作为该项目的数据分析师，你需要依据数据可视化与统计分析的相关原理，解决以下关键问题。（4）小王在分析“年龄”与“年度总消费额”的相关性时，计算了皮尔逊相关系数（Pearson Correlation Coefficient），结果为0.15。但在绘制散点图时，他发现数据点主要集中在左下角，右上角有极少数点，且整体呈现明显的曲线趋势而非直线。结合前文提到的数据右偏特征，下列关于该分析结论的判断正确的是？

A. 相关系数0.15说明两者完全无关，无需进一步处理

B. 皮尔逊相关系数适用于衡量非线性关系，结果准确反映了强相关性

C. 由于数据存在严重偏态且可能为非线性关系，皮尔逊相关系数可能低估了实际关联强度，应考虑先对数据进行对数变换或使用斯皮尔曼等级相关系数

D. 应直接剔除右上角的少数高消费用户，重新计算皮尔逊相关系数以获得更高值

上一题

下一题

题目解析

题目评论(0)

皮尔逊相关系数主要衡量两个变量间的线性相关程度，且对异常值和偏态分布非常敏感。当数据严重偏态或存在非线性关系（如曲线）时，皮尔逊系数往往不能真实反映变量间的关联强度（可能低估）。此时，正确的做法是对偏态数据进行变换（如对数变换使其接近正态分布）后再分析，或者使用不依赖分布假设的斯皮尔曼（Spearman）等级相关系数。直接剔除数据（D）缺乏依据，认为完全无关（A）或适用非线性（B）均错误。故选C。