-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

你所在的电商平台“TechMall”即将举行年度最大的“超级品牌日”活动，核心引流项目是“53度飞天茅台1499元整点秒杀”。由于商品存在巨大的二级市场价差，该活动吸引了大量“黑产”（羊毛党、机器脚本、群控设备）进行抢购。业务痛点： 1. 极度不平衡与标签缺失：在数千万次请求中，只有极少数是真正的黑产攻击，且平台只能确认部分被投诉的账号是黑产（Positive），以及部分长期高活的忠实用户是正常（Negative），海量中间用户的性质是未知的（Unlabeled）。 2. 高并发低时延：秒杀开启瞬间QPS（每秒查询率）破十万，风控模型必须在20ms内返回拦截决策。 3. 对抗性强：黑产会不断变换IP、设备指纹、UA等特征来绕过规则。 4. 误杀成本高：如果误拦截了平台的高价值VIP用户，会导致严重的客诉和品牌舆情危机。数据团队决定构建一套基于实时行为序列与 LightGBM+LSTM 的模型。请基于此背景回答以下5道题。（3）模型基于LightGBM训练，在验证集上发现过拟合（Overfitting）现象严重。为了降低模型方差，提高泛化能力，你需要调整超参数。根据LightGBM基于Leaf-wise（按叶子生长）的生长策略，以下哪组参数调整方向是最有效且逻辑正确的？

A. 增加 num_leaves（叶子节点数），同时减小 min_data_in_leaf（叶子节点最小样本数）。

B. 减小 learning_rate（学习率），同时减少 n_estimators（迭代次数）。

C. 限制 max_depth（树的最大深度），同时增大 min_gain_to_split（分裂最小增益阈值）。

D. 将 feature_fraction（特征采样率）设置为1.0，并关闭 bagging（Bagging采样）。

上一题

下一题

题目解析

题目评论(0)

本题考察树模型的超参数调优原理。 • A选项：错误。增加叶子节点数和减小叶子最小样本数都会让模型切分得更细，捕捉更多噪声，从而加剧过拟合。 • B选项：错误。减小学习率通常需要增加迭代次数才能达到收敛，否则会导致欠拟合。 • C选项：正确。LightGBM的Leaf-wise策略容易长出很深的树（针对某些特定样本一直切分）。限制 max_depth 可以防止树生长过深；增大 min_gain_to_split 意味着只有当分裂带来的纯度提升足够大时才分裂，这相当于一种预剪枝（Pre-pruning），能有效抑制过拟合。 • D选项：错误。特征采样和行采样（Bagging）是随机森林思想的引入，用于增加随机性、防止过拟合。关闭它们（设为1.0和关闭）会降低模型的抗干扰能力。