CDA LEVEL Ⅲ 模拟题（二）数据分析师考试考察内容-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

计算机分词的研究，可略分为法则式分词法和统计式分词法, 这两种分词的方法都需依赖词典的辅助。而关于统计式分词，以下说法正确的是？

A. 利用语料库归纳出统计数据作为凭断标准

B. 以构词规则为出发点

C. 主要有全切分以及FMM/BMM方法

D. 能非常好地处理新词以及新词带来的歧义问题

上一题

下一题

题目解析

题目评论(0)

计算机分词的研究，可略分为法则式分词法和统计式分词法, 这两种分词的方法都需依赖词典的辅助。 - 法则式分词法：以构词规则为出发点的分词方式。eg: 全切分, FMM/BM： - 统计式分词法：利用语料库归纳出统计数据作为凭断标准的分词方式。eg: N-Gram概率模型不能处理新词以及新词带来的歧义问题是统计式分词法的缺点。

正确答案是：A: 利用语料库归纳出统计数据作为凭断标准。

专业分析：

统计式分词法主要依赖于大量的语料库，通过对语料库中的词频、共现频率等统计数据进行分析，来确定分词的边界。以下是对各选项的详细分析：

A: 利用语料库归纳出统计数据作为凭断标准
这正是统计式分词的核心思想。统计式分词通过分析大量的文本数据，归纳出词语的出现频率、共现概率等统计信息，作为判断词语边界的依据。

B: 以构词规则为出发点
这更接近法则式分词法的特点。法则式分词法依赖于预先定义的语言学规则和词典，按照这些规则来进行分词。

C: 主要有全切分以及FMM/BMM方法
全切分、正向最大匹配（FMM）和逆向最大匹配（BMM）方法是法则式分词法的典型方法，而不是统计式分词法。

D: 能非常好地处理新词以及新词带来的歧义问题
统计式分词法在处理新词和歧义问题上有一定的优势，但不能说“非常好”。新词的处理仍然依赖于语料库的覆盖范围和统计模型的训练效果。对于一些未在语料库中出现的新词，统计式分词法也可能会出现问题。

因此，正确答案是A。