CDA认证考试数据分析题目考察文本聚类-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

"从众多的文档中把一些内容相似的文档聚为一类的技术，同类的文本相似度较大，而不同类的文本相似度较小"以上描述的是什么自然语言处理方法？

A. 文本分类

B. 文本关联

C. 文本聚类

D. 文本摘要

上一题

下一题

题目解析

题目评论(0)

文本分类 : 在给定已知的分类体系下，根据文本特征构建有监督机器学习模型，达到识别文本类型或内容主旨的目的. 文本关联 : 它是传统关联规则方法在文本挖掘上的应用，包含文档类型关联、词汇关联、实体关联等内容. 文本聚类: 就是从众多的文档中把一些内容相似的文档聚为一类的技术，同类的文本相似度较大，而不同类的文本相似度较小，是一种无监督的机器学习方法. 文本摘要: 就是对数据内容进行提炼与总结，以简洁、直观的摘要来概括所关注的主要内容，方便我们快速地了解与浏览内容.

以上描述的自然语言处理方法是 **C: 文本聚类**。

### 专业分析：
- **文本分类（Text Classification）**：这是将文档分配到预定义的类别中的过程。它通常需要先定义好类别，然后根据文档内容将其归类。分类的依据通常是训练好的模型。

- **文本关联（Text Association）**：这通常指的是在文本数据中发现关联规则或关系的过程，常用于市场篮分析和推荐系统。它并不是直接将文档聚为一类的技术。

- **文本聚类（Text Clustering）**：这是将相似的文档自动分组的过程，而不需要预定义类别。聚类算法会根据文档内容的相似度将文档分成不同的组，同组内的文档相似度较大，不同组间的文档相似度较小。

- **文本摘要（Text Summarization）**：这是从文档中提取出关键信息并生成简短摘要的过程，不涉及将文档分组。

综上所述，描述的技术是文本聚类（Text Clustering），因为它强调的是将内容相似的文档自动分组，而不同类的文本相似度较小。