-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

某大型电商平台（以下简称“平台”）计划在2026年第二季度推出一系列环保包装和低碳物流产品。为了精准定位目标用户并优化推荐算法，数据部门启动了“绿色消费”用户画像构建项目。项目初期，数据团队面临以下挑战： 1. 样本获取：平台拥有数亿活跃用户，无法对所有用户进行深度调研。团队需要选取一部分用户进行问卷调查，以了解其环保意识和消费习惯。 2. 多源数据：除了问卷数据，还需要整合用户过去一年的订单交易数据（结构化数据）、客服聊天记录（非结构化文本）以及外部引入的城市空气质量指数数据。 3. 数据质量：初步提取的交易数据中存在大量重复记录（因系统日志重传）、部分用户年龄缺失、以及少量订单金额为负数的异常值。 4. 建模准备：在构建预测用户是否购买环保产品的机器学习模型时，发现“职业”、“居住城市”等特征类别过多，且“年消费金额”呈现严重的右偏分布，直接影响模型收敛速度和效果。作为该项目的数据分析师，你需要依据数据采集、读取、整合、清洗及特征处理的相关原理，解决以下关键问题。（5）分析发现，“年消费总额”这一连续型特征呈现严重的右偏分布（长尾效应），且不同用户的消费金额量级差异极大（从几百元到几百万元）。为了满足某些对数据分布敏感（如假设正态分布）或基于距离计算（如KNN、K-Means）的算法模型需求，下列组合处理方式最为恰当的是？

A. 仅进行最大值最小值归一化（Min-Max Scaling）

B. 先进行对数变换（Log Transform）改善偏态，再进行标准化（Z-Score）

C. 直接使用WoE转换将其转换为分类型特征

D. 仅剔除大于99%分位数的离群值，不做其他变换

上一题

下一题

题目解析

题目评论(0)

针对严重右偏（长尾）的连续型特征，直接标准化效果不佳，因为均值和方差受极值影响大。标准的处理流程是：先进行非线性变换（如对数变换 Log Transform、Box-Cox变换）使分布接近正态，消除长尾影响；然后再进行中心标准化（Z-Score）或归一化，以消除量纲影响，适应基于距离或假设正态分布的算法。