CDA LEVEL Ⅲ N-Gram模型考察-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

N-Gram模型是一种语言模型（Language Model，LM），语言模型是一个基于概率的判别模型，它的输入是一句话（单词的顺序序列），输出是这句话的概率，即这些单词的联合概率（joint probability）。关于N-Gram的说法正确的是？

A. N-Gram的优点是不需要进行中文分词

B. 当N够大时，所有正确的分词均会出现于N-Gram中

C. 噪声少，可以与许多资源结合

D. N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义

上一题

下一题

题目解析

题目评论(0)

N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义，噪声过多，且无法与许多资源结合，会大大影响后续的分析。所以C错误。

关于N-Gram模型的说法，正确的选项是D: N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义。

### 分析：

A: **N-Gram的优点是不需要进行中文分词**

这个说法不完全正确。实际上，N-Gram模型在处理中文时，通常需要先进行分词，因为中文文本没有明显的单词边界。分词是预处理步骤之一，之后才会生成N-Gram。

B: **当N够大时，所有正确的分词均会出现于N-Gram中**

这个说法也不完全正确。虽然在理论上N足够大时可以捕捉到更多的词语组合，但在实际应用中，N的增大也会导致数据稀疏问题，计算复杂度显著增加，并且需要更多的训练数据来估计概率。因此，实际应用中N通常不会设置得太大。

C: **噪声少，可以与许多资源结合**

这个说法并不准确。N-Gram模型本身并没有减少噪声的机制，而且由于它仅仅依赖于固定长度的词序列，容易受到数据稀疏和噪声的影响。它也不能很好地结合其他资源来减少噪声。

D: **N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义**

这是真实的。N-Gram模型的主要缺点之一就是它仅仅考虑固定长度的词序列，而不考虑词与词之间的语法和语义关系。因此，很多生成的N-Gram并没有实际意义，特别是在处理长距离依赖关系和复杂语法结构时，N-Gram模型的表现较差。

综上所述，正确答案是D。