自然语言处理中关键词建立方法-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

在中文的自然语言处理工作中，以下属于建立关键词的程序是？

A. 读取文献

B. 分词

C. 利用 Suffix String 将 Word 重整至最基本字型

D. 计算每个Word的IDF

上一题

下一题

题目解析

题目评论(0)

关键词是能够表达文档中心内容的词语，常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支，是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作建立关键词的程序(抽取层次:词) - 读取文献 - 分词(中文需要) - 利用 Suffix String 将 Word 重整至最基本字型(Stem Word)(英文需要) - 计算每个 Word 的IDF - 利用一个阀值(Threshold) - 选出代表文献的关键词及其IDF - 产生Stop Words C是英文处理时需要的步骤，题干是中文，所以答案中不包括C，最终选ABD

正确答案是：B: 分词。

专业分析：
在自然语言处理（NLP）工作中，建立关键词的过程通常涉及以下几个步骤：

1. **读取文献（A）**：这是数据预处理的第一步，主要是获取和加载文本数据，但这一步并不直接涉及关键词的建立。

2. **分词（B）**：分词是将连续的文本划分为一个个单独的词语。在中文自然语言处理中，分词是非常重要的一步，因为中文文本中词语之间没有空格分隔。分词的结果将直接影响后续的关键词提取和文本分析。

3. **利用 Suffix String 将 Word 重整至最基本字型（C）**：这个选项描述的操作不太明确，通常在NLP中不常见。Suffix String（后缀数组）和词形还原（stemming/lemmatization）是不同的概念，前者用于字符串模式匹配，后者用于将词语还原到其基本形式。中文处理中，词形还原的应用也较少，因为中文词语本身没有词形变化。

4. **计算每个Word的IDF（D）**：IDF（逆文档频率）是用于衡量一个词语在文档集合中的重要性的指标。虽然计算IDF是关键词提取的重要步骤，但它依赖于分词后的结果，因此不是建立关键词的初始步骤。

综上所述，分词是建立关键词的基础步骤，因此正确答案是B。