CDA LEVEL Ⅲ 模拟题（二）主要考察计算机分词的统计方法-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

计算机分词的研究，可略分为法则式分词法和统计式分词法, 这两种分词的方法都需依赖词典的辅助。而关于统计式分词，以下说法正确的是？

A. 利用语料库归纳出统计数据作为凭断标准

B. 以构词规则为出发点

C. 主要有全切分以及FMM/BMM方法

D. 能非常好地处理新词以及新词带来的歧义问题

上一题

下一题

题目解析

题目评论(0)

计算机分词的研究，可略分为法则式分词法和统计式分词法, 这两种分词的方法都需依赖词典的辅助。- 法则式分词法：以构词规则为出发点的分词方式。eg: 全切分, FMM/BM：- 统计式分词法：利用语料库归纳出统计数据作为凭断标准的分词方式。eg: N-Gram概率模型不能处理新词以及新词带来的歧义问题是统计式分词法的缺点。

正确答案是：A. 利用语料库归纳出统计数据作为凭断标准

### 专业分析：

**统计式分词法**是一种基于统计学原理的分词方法，主要依赖大规模的语料库，通过对语料库中的词语进行统计分析，获取词语的频率、共现概率等统计数据，然后利用这些数据进行分词。

#### A. 利用语料库归纳出统计数据作为凭断标准
这是统计式分词法的核心思想。通过大规模语料库的统计分析，获取词语的频率、共现概率等数据，并据此判断词语的边界和分词结果。因此，A选项是正确的。

#### B. 以构词规则为出发点
这是法则式分词法的特点，法则式分词法主要依赖预定义的词典和语言学规则进行分词，而不是统计数据。因此，B选项不适用于统计式分词法。

#### C. 主要有全切分以及FMM/BMM方法
全切分、FMM（正向最大匹配法）和BMM（逆向最大匹配法）是法则式分词法中常用的方法，而不是统计式分词法的主要方法。因此，C选项不正确。

#### D. 能非常好地处理新词以及新词带来的歧义问题
虽然统计式分词法在处理新词和歧义方面有一定优势，但并不能“非常好”地解决这些问题。新词和歧义的处理在统计式分词法中仍然是一个难点，需要结合其他方法进行优化。因此，D选项不完全正确。

综上所述，A选项是关于统计式分词法的正确描述。