考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

计算机分词的研究,可略分为法则式分词法和统计式分词法, 这两种分词的方法都需依赖词典的辅助。而关于统计式分词,以下说法正确的是?
A. 利用语料库归纳出统计数据作为凭断标准
B. 以构词规则为出发点
C. 主要有全切分以及FMM/BMM方法
D. 能非常好地处理新词以及新词带来的歧义问题
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

计算机分词的研究,可略分为法则式分词法和统计式分词法, 这两种分词的方法都需依赖词典的辅助。 - 法则式分词法:以构词规则为出发点的分词方式。eg: 全切分, FMM/BM: - 统计式分词法:利用语料库归纳出统计数据作为凭断标准的分词方式。eg: N-Gram概率模型 不能处理新词以及新词带来的歧义问题是统计式分词法的缺点。

正确答案是:A: 利用语料库归纳出统计数据作为凭断标准。

专业分析:

统计式分词法主要依赖于大量的语料库,通过对语料库中的词频、共现频率等统计数据进行分析,来确定分词的边界。以下是对各选项的详细分析:

A: 利用语料库归纳出统计数据作为凭断标准
这正是统计式分词的核心思想。统计式分词通过分析大量的文本数据,归纳出词语的出现频率、共现概率等统计信息,作为判断词语边界的依据。

B: 以构词规则为出发点
这更接近法则式分词法的特点。法则式分词法依赖于预先定义的语言学规则和词典,按照这些规则来进行分词。

C: 主要有全切分以及FMM/BMM方法
全切分、正向最大匹配(FMM)和逆向最大匹配(BMM)方法是法则式分词法的典型方法,而不是统计式分词法。

D: 能非常好地处理新词以及新词带来的歧义问题
统计式分词法在处理新词和歧义问题上有一定的优势,但不能说“非常好”。新词的处理仍然依赖于语料库的覆盖范围和统计模型的训练效果。对于一些未在语料库中出现的新词,统计式分词法也可能会出现问题。

因此,正确答案是A。