20Newsgroups数据集文本分类常见错误-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

20Newsgroups数据集是机器学习研究中常用的标准数据集，它使用20个Usenet新闻单位上几个月发布的18828个消息，共18828个文件，如果要对该数据集使用mahout进行文本分类，错误的做法是（）（多选）

A. 直接使用mahout算法，在namenode机器的本地文件系统中调用这18828个文件

B. 将这18828个文件上传到hdfs上，然后使用mahout算法分析

C. 使用mahout提供的seqdirectory命令将18828个文件序列化成一个大文件上传到hdfs上，然后使用mahout算法分析

D. 将这18828个文件rar压缩软件将其压缩成一个大文件上传到hdfs上，然后使用mahout算法分析

上一题

下一题

题目解析

题目评论(0)

在使用 Mahout 进行文本分类时，尤其是在处理 20Newsgroups 这样的数据集时，以下是对选项的分析：

- **A: 直接使用mahout算法，在namenode机器的本地文件系统中调用这18828个文件。**

**分析**：Mahout 是基于 Hadoop 的分布式计算框架设计的，通常在 HDFS（Hadoop Distributed File System）上操作，而不是直接使用本地文件系统。因此直接在本地文件系统操作会无法利用 Hadoop 的分布式计算优势，是不推荐的做法。

- **B: 将这18828个文件上传到hdfs上，然后使用mahout算法分析。**

**分析**：这是一种常见的做法。将数据上传到 HDFS 是为了利用 Hadoop 的分布式计算能力。然后可以对这些数据使用 Mahout 的算法进行分析，是正确的做法。

- **C: 使用mahout提供的seqdirectory命令将18828个文件序列化成一个大文件上传到hdfs上，然后使用mahout算法分析。**

**分析**：使用 `seqdirectory` 命令是 Mahout 常用的步骤之一，用于将许多小文件序列化成序列文件，这样可以提高处理效率。这是一个推荐的做法，利用了 Hadoop 的优势。

- **D: 将这18828个文件用rar压缩软件将其压缩成一个大文件上传到hdfs上，然后使用mahout算法分析。**

**分析**：使用 rar 压缩工具将文件压缩，并不是在 Hadoop 环境中处理数据的标准做法。Hadoop 和 Mahout 期望输入是可以直接读取和处理的格式，而不是压缩文件格式。因此这会增加处理步骤，不是推荐的做法。

**正确答案**：A 和 D 是错误的做法。

### 专业分析总结：

- **A**的问题在于未使用分布式系统的设计理念。
- **D**的问题在于文件格式处理不当，增加了解压缩步骤，没有利用适合 Hadoop 的数据格式。
- **B**和**C**是利用 Hadoop 和 Mahout 的优势设计的合理流程。