• A 选项错误:LR 的优势在于处理高维稀疏特征,GBDT+LR 的目的就是扩维,而不是降维。所有树的叶子节点都会被保留,形成N×M的稀疏向量(如果 trees 是共享索引则是总叶子数),并不需要筛选 Top K。
• B 选项正确:这是该架构的灵魂。树的每一条路径代表了一种非线性的特征组合(Feature Interaction),叶子节点代表了输入空间的一个划分区域。通过 One-Hot 索引,我们将“样本落在哪个区域”这一非线性信息变成了 LR 容易处理的稀疏二值特征。
• C 选项错误,且极具迷惑性:如果我们传 Leaf Value,那么 LR 接收到的是 N 个连续数值。此时 LR 只是对 GBDT 的预测结果做了一个线性加权(类似于简单的 Blending/Stacking),模型失去了“将非线性边界转化为线性边界”的能力。使用 Index 的核心目的是分箱(Binning),将连续值离散化,让 LR 能够针对每个“箱子”(即特定的特征组合模式)学习一个独立的权重,而不是依赖于 GBDT 输出的数值大小。
• D 选项错误:经典的 GBDT(基于 CART 或 XGBoost)包含硬切分(Hard Thresholding),其决策边界是不可导的(Step Function),因此无法直接通过梯度下降进行端到端的联合训练。Facebook 原论文中是级联训练(Serial Training):先训练 GBDT,固定树结构后,转换特征再训练 LR。