考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

N-Gram模型是一种语言模型(Language Model,LM),语言模型是一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即这些单词的联合概率(joint probability)。关于N-Gram的说法正确的是?
A. N-Gram的优点是不需要进行中文分词
B. 当N够大时,所有正确的分词均会出现于N-Gram中
C. 噪声少,可以与许多资源结合
D. N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义, 噪声过多,且无法与许多资源结合,会大大影响后续的分析。所以C错误。

关于N-Gram模型的说法,正确的选项是:D: N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义。

以下是对各个选项的分析:

A: N-Gram的优点是不需要进行中文分词。
- 错误。N-Gram模型在处理中文时,通常仍然需要进行分词。中文没有明显的词边界,如果不进行分词,直接使用N-Gram会导致生成的N-Gram片段可能没有实际意义。

B: 当N够大时,所有正确的分词均会出现于N-Gram中。
- 错误。即使N足够大,也不能保证所有正确的分词都会出现,因为N-Gram模型依赖于训练语料的覆盖范围和质量。如果训练数据不够全面或有偏差,某些正确的分词可能仍然不会出现在N-Gram中。

C: 噪声少,可以与许多资源结合。
- 错误。N-Gram模型并不特别强调噪声少的问题。实际上,N-Gram模型可能会受到数据稀疏性和噪声的影响。此外,N-Gram模型本身是一个比较简单的统计模型,虽然可以结合其他资源,但这并不是其主要特点。

D: N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义。
- 正确。N-Gram模型主要依赖于统计共现频率,而不考虑语法和语义信息,因此生成的N-Gram片段可能缺乏语法和语义上的意义。这也是N-Gram模型的一个主要缺点。

综上所述,正确答案是D。