考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某大型连锁零售集团在2026年面临激烈的市场竞争,为了优化供应链管理和提升客户忠诚度,集团数据科学部收集了旗下500家门店及百万级会员的详细运营数据。数据集主要包含两个部分: 1.商品维度数据:涵盖3000种SKU的月度销售指标,包括销售额、销售量、毛利率、库存周转天数、促销频率、退货率以及供应商交货准时率。 2.用户维度数据:涵盖会员的近期消费行为,包括最近一次消费时间(Recency)、消费频率(Frequency)、消费金额(Monetary)、浏览未购买次数、客诉次数以及会员等级。 数据分析师小李负责利用统计分析技术挖掘数据价值,具体任务涉及商品分类策略制定、用户画像构建、流失预警及关键驱动因素识别。 作为该项目的数据分析师,你需要依据主成分分析、因子分析、决策树、聚类等技术的原理,解决以下关键问题。 (1)由于商品指标多达7个且存在高度相关性(如销售额与销售量),直接聚类效果不佳。小李计划先使用主成分分析(PCA)或因子分析提取核心特征,再基于提取的特征对商品进行聚类,以制定差异化的库存策略。在对3000种商品进行聚类分析前,小李先进行了主成分分析(PCA)。关于PCA在该场景下的应用,以下描述正确的是?
A. PCA的主要目的是通过线性组合原始变量,生成一组互不相关的主成分,且第一个主成分的方差贡献率通常最小。
B. 在进行PCA之前,由于销售额(万元)和退货率(百分比)的量纲差异巨大,必须对数据进行标准化处理(如Z-score标准化)。
C. 提取出的主成分数量必须等于原始变量的数量(即7个),才能保证信息不丢失,否则无法进行后续聚类。
D. PCA生成的主成分具有明确的业务含义(如“第一主成分”直接代表“利润”),无需旋转即可直接用于命名商品类别。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

A选项错误:PCA的目标是最大化方差,第一个主成分包含的信息量(方差贡献率)通常是最大的,而不是最小。 B选项正确:当原始变量的量纲(单位)不一致或数值范围差异很大时(如销售额可能是几万,而退货率是0-1之间的小数),协方差矩阵会被大数值变量主导。因此,必须先进行标准化处理,使各变量均值为0、方差为1,基于相关系数矩阵进行PCA。 C选项错误:PCA的核心目的正是降维。通常会选取累计方差贡献率达到一定阈值(如85%或90%)的前几个主成分,数量通常远少于原始变量数。 D选项错误:初始主成分往往是原始变量的复杂线性组合,业务含义通常不直观。在实际应用中,常需进行因子旋转(如方差最大旋转)以使载荷矩阵结构更简单,从而便于解释和命名。 故选B。