考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

你所在的电商平台“TechMall”即将举行年度最大的“超级品牌日”活动,核心引流项目是“53度飞天茅台1499元整点秒杀”。由于商品存在巨大的二级市场价差,该活动吸引了大量“黑产”(羊毛党、机器脚本、群控设备)进行抢购。 业务痛点: 1. 极度不平衡与标签缺失:在数千万次请求中,只有极少数是真正的黑产攻击,且平台只能确认部分被投诉的账号是黑产(Positive),以及部分长期高活的忠实用户是正常(Negative),海量中间用户的性质是未知的(Unlabeled)。 2. 高并发低时延:秒杀开启瞬间QPS(每秒查询率)破十万,风控模型必须在20ms内返回拦截决策。 3. 对抗性强:黑产会不断变换IP、设备指纹、UA等特征来绕过规则。 4. 误杀成本高:如果误拦截了平台的高价值VIP用户,会导致严重的客诉和品牌舆情危机。 数据团队决定构建一套基于实时行为序列与 LightGBM+LSTM 的模型。请基于此背景回答以下5道题。 (3)模型基于LightGBM训练,在验证集上发现过拟合(Overfitting) 现象严重。为了降低模型方差,提高泛化能力,你需要调整超参数。根据LightGBM基于Leaf-wise(按叶子生长) 的生长策略,以下哪组参数调整方向是最有效且逻辑正确的?
A. 增加 num_leaves(叶子节点数),同时减小 min_data_in_leaf(叶子节点最小样本数)。
B. 减小 learning_rate(学习率),同时减少 n_estimators(迭代次数)。
C. 限制 max_depth(树的最大深度),同时增大 min_gain_to_split(分裂最小增益阈值)。
D. 将 feature_fraction(特征采样率)设置为1.0,并关闭 bagging(Bagging采样)。
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

本题考察树模型的超参数调优原理。 • A选项:错误。增加叶子节点数和减小叶子最小样本数都会让模型切分得更细,捕捉更多噪声,从而加剧过拟合。 • B选项:错误。减小学习率通常需要增加迭代次数才能达到收敛,否则会导致欠拟合。 • C选项:正确。LightGBM的Leaf-wise策略容易长出很深的树(针对某些特定样本一直切分)。限制 max_depth 可以防止树生长过深;增大 min_gain_to_split 意味着只有当分裂带来的纯度提升足够大时才分裂,这相当于一种预剪枝(Pre-pruning),能有效抑制过拟合。 • D选项:错误。特征采样和行采样(Bagging)是随机森林思想的引入,用于增加随机性、防止过拟合。关闭它们(设为1.0和关闭)会降低模型的抗干扰能力。