考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

某大型电商平台(以下简称“平台”)计划在2026年第二季度推出一系列环保包装和低碳物流产品。为了精准定位目标用户并优化推荐算法,数据部门启动了“绿色消费”用户画像构建项目。 项目初期,数据团队面临以下挑战: 1. 样本获取:平台拥有数亿活跃用户,无法对所有用户进行深度调研。团队需要选取一部分用户进行问卷调查,以了解其环保意识和消费习惯。 2. 多源数据:除了问卷数据,还需要整合用户过去一年的订单交易数据(结构化数据)、客服聊天记录(非结构化文本)以及外部引入的城市空气质量指数数据。 3. 数据质量:初步提取的交易数据中存在大量重复记录(因系统日志重传)、部分用户年龄缺失、以及少量订单金额为负数的异常值。 4. 建模准备:在构建预测用户是否购买环保产品的机器学习模型时,发现“职业”、“居住城市”等特征类别过多,且“年消费金额”呈现严重的右偏分布,直接影响模型收敛速度和效果。 作为该项目的数据分析师,你需要依据数据采集、读取、整合、清洗及特征处理的相关原理,解决以下关键问题。 (2)数据工程师需要将“问卷调研表”(包含用户ID、环保评分)与“年度订单表”(包含用户ID、消费总额、订单次数)进行合并,以便分析消费能力与环保评分的关系。两张表均以“用户ID”为唯一标识,且需要保留所有填写了问卷的用户,即使其中部分用户在年度订单表中无记录。在数据处理软件(如Python Pandas或SQL)中,应执行的操作是?
A. 纵向拼接(Append/Union)
B. 内连接(Inner Join)
C. 左连接(Left Join),以问卷表为主表
D. 右连接(Right Join),以订单表为主表
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

题目需求是“保留所有填写了问卷的用户”,即使没有订单记录也要保留(订单部分为空)。这是典型的左连接(Left Join)场景,即以左表(问卷表)为基准,匹配右表(订单表)的数据。纵向拼接用于增加行数(字段相同),内连接会丢弃无匹配的行。