考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

备考刷题,请到

CDA认证小程序

在中文的自然语言处理工作中,以下属于建立关键词的程序是?
A. 读取文献
B. 分词
C. 利用 Suffix String 将 Word 重整至最基本字型
D. 计算每个Word的IDF
上一题
下一题
收藏
点赞
评论
题目解析
题目评论(0)

关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作 建立关键词的程序(抽取层次:词) - 读取文献 - 分词(中文需要) - 利用 Suffix String 将 Word 重整至最基本字型(Stem Word)(英文需要) - 计算每个 Word 的IDF - 利用一个阀值(Threshold) - 选出代表文献的关键词及其IDF - 产生Stop Words C是英文处理时需要的步骤,题干是中文,所以答案中不包括C,最终选ABD

正确答案是:B: 分词。

专业分析:
在自然语言处理(NLP)工作中,建立关键词的过程通常涉及以下几个步骤:

1. **读取文献(A)**:这是数据预处理的第一步,主要是获取和加载文本数据,但这一步并不直接涉及关键词的建立。

2. **分词(B)**:分词是将连续的文本划分为一个个单独的词语。在中文自然语言处理中,分词是非常重要的一步,因为中文文本中词语之间没有空格分隔。分词的结果将直接影响后续的关键词提取和文本分析。

3. **利用 Suffix String 将 Word 重整至最基本字型(C)**:这个选项描述的操作不太明确,通常在NLP中不常见。Suffix String(后缀数组)和词形还原(stemming/lemmatization)是不同的概念,前者用于字符串模式匹配,后者用于将词语还原到其基本形式。中文处理中,词形还原的应用也较少,因为中文词语本身没有词形变化。

4. **计算每个Word的IDF(D)**:IDF(逆文档频率)是用于衡量一个词语在文档集合中的重要性的指标。虽然计算IDF是关键词提取的重要步骤,但它依赖于分词后的结果,因此不是建立关键词的初始步骤。

综上所述,分词是建立关键词的基础步骤,因此正确答案是B。