-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

你需要寻找最佳的分类策略。候选方案包括： 1. 使用 PCA 降维后接 LogisticRegression 2. 不使用降维，直接使用 RandomForestClassifier 你想在一个 GridSearchCV 中完成这两种完全不同结构的 Pipeline 的比较。下列 param_grid 的写法思路正确的是（假设 Pipeline 已初始化为 pipe = Pipeline([('prep', None), ('clf', None)])）：

A. 无法在一个 GridSearch 中比较不同结构的 Pipeline，必须写两个独立的脚本

B. 使用列表形式的 param_grid，包含两个字典。[{'prep': [PCA()], 'clf': [LogisticRegression()], {'prep': [None], 'clf': [RandomForestClassifier()]}]

C. 使用列表形式的 param_grid，将所有待调参数分别传入每个参数列表的不同元素：[{'prep': [PCA(), None], 'clf': [LogisticRegression(), RandomForestClassifier()]}]

D. 使用列表形式的 param_grid，包含两个字典。{['prep': PCA(), 'clf': LogisticRegression()], ['prep': None, 'clf': RandomForestClassifier()]}

上一题

下一题

题目解析

题目评论(0)

o GridSearchCV 的 param_grid 可以是一个字典列表（List of Dictionaries）。这是处理“条件超参数”或“多路径比较”的标准技巧。 o 选项 B 正确：它定义了两个独立的搜索空间。  空间1：prep 是 PCA，clf 是 LR。GridSearch 会在这个空间内进一步搜索 PCA 和 LR 的参数。  空间2：prep 是 None（即跳过），clf 是 RF。 o 选项 C 错误：这会产生笛卡尔积（Cartesian Product），即它会尝试 PCA + RandomForest 这种不在计划内的组合，既浪费时间也可能逻辑不通。 o 选项 D 语法错误 o Pipeline 中的 step 可以被设置为 None（Passthrough），这是实现此功能的关键。