CDA LEVEL Ⅲ N-Gram模型考点分析-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

N-Gram模型是一种语言模型（Language Model，LM），语言模型是一个基于概率的判别模型，它的输入是一句话（单词的顺序序列），输出是这句话的概率，即这些单词的联合概率（joint probability）。关于N-Gram的说法正确的是？

A. N-Gram的优点是不需要进行中文分词

B. 当N够大时，所有正确的分词均会出现于N-Gram中

C. 噪声少，可以与许多资源结合

D. N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义

上一题

下一题

题目解析

题目评论(0)

N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义，噪声过多，且无法与许多资源结合，会大大影响后续的分析。所以C错误。

关于N-Gram模型的说法，正确的选项是：D: N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义。

以下是对各个选项的分析：

A: N-Gram的优点是不需要进行中文分词。
- 错误。N-Gram模型在处理中文时，通常仍然需要进行分词。中文没有明显的词边界，如果不进行分词，直接使用N-Gram会导致生成的N-Gram片段可能没有实际意义。

B: 当N够大时，所有正确的分词均会出现于N-Gram中。
- 错误。即使N足够大，也不能保证所有正确的分词都会出现，因为N-Gram模型依赖于训练语料的覆盖范围和质量。如果训练数据不够全面或有偏差，某些正确的分词可能仍然不会出现在N-Gram中。

C: 噪声少，可以与许多资源结合。
- 错误。N-Gram模型并不特别强调噪声少的问题。实际上，N-Gram模型可能会受到数据稀疏性和噪声的影响。此外，N-Gram模型本身是一个比较简单的统计模型，虽然可以结合其他资源，但这并不是其主要特点。

D: N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义。
- 正确。N-Gram模型主要依赖于统计共现频率，而不考虑语法和语义信息，因此生成的N-Gram片段可能缺乏语法和语义上的意义。这也是N-Gram模型的一个主要缺点。

综上所述，正确答案是D。