考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

N-Gram模型是一种语言模型(Language Model,LM),语言模型是一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即这些单词的联合概率(joint probability)。关于N-Gram的说法正确的是?
A. N-Gram的优点是不需要进行中文分词
B. 当N够大时,所有正确的分词均会出现于N-Gram中
C. 噪声少,可以与许多资源结合
D. N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义, 噪声过多,且无法与许多资源结合,会大大影响后续的分析。所以C错误。

关于N-Gram模型的说法,正确的选项是D: N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义。

### 分析:

A: **N-Gram的优点是不需要进行中文分词**

这个说法不完全正确。实际上,N-Gram模型在处理中文时,通常需要先进行分词,因为中文文本没有明显的单词边界。分词是预处理步骤之一,之后才会生成N-Gram。

B: **当N够大时,所有正确的分词均会出现于N-Gram中**

这个说法也不完全正确。虽然在理论上N足够大时可以捕捉到更多的词语组合,但在实际应用中,N的增大也会导致数据稀疏问题,计算复杂度显著增加,并且需要更多的训练数据来估计概率。因此,实际应用中N通常不会设置得太大。

C: **噪声少,可以与许多资源结合**

这个说法并不准确。N-Gram模型本身并没有减少噪声的机制,而且由于它仅仅依赖于固定长度的词序列,容易受到数据稀疏和噪声的影响。它也不能很好地结合其他资源来减少噪声。

D: **N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义**

这是真实的。N-Gram模型的主要缺点之一就是它仅仅考虑固定长度的词序列,而不考虑词与词之间的语法和语义关系。因此,很多生成的N-Gram并没有实际意义,特别是在处理长距离依赖关系和复杂语法结构时,N-Gram模型的表现较差。

综上所述,正确答案是D。