Spark中DataFrame与RDD的主要区别是什么-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

Spark中DataFrame 和 RDD 最大的区别是？

A. 科学统计支持

B. 多了 schema

C. 存储方式不一样

D. 外部数据源支持

上一题

下一题

题目解析

题目评论(0)

在Spark中，DataFrame和RDD的最大区别主要体现在它们的结构和优化能力上。DataFrame是构建在RDD之上的更高级别的抽象，提供了一些额外的功能和优化能力。以下是对选项的分析：

A: 科学统计支持
虽然DataFrame提供了一些高级的API和函数来支持统计分析，但这并不是它与RDD的最大区别。RDD同样可以通过编程实现统计功能。

B: 多了 schema
这是一个关键区别。DataFrame是分布式数据集，类似于传统数据库中的表，具有明确的schema（模式），这意味着每列都有名字和类型。这使得DataFrame能够利用结构化数据的优势进行查询优化。

C: 存储方式不一样
DataFrame和RDD在底层的存储方式上没有本质区别。它们都可以存储在内存中，也可以被持久化到磁盘上。

D: 外部数据源支持
虽然DataFrame提供了更好的API来与外部数据源（如JSON、Parquet、JDBC等）进行交互，但这主要是由于DataFrame的高级API设计，而不是它与RDD的最大区别。

综上所述，DataFrame与RDD的最大区别是B:多了 schema。DataFrame的schema信息使得Spark SQL引擎能够执行更高效的查询优化（如投影剪枝、谓词下推等），从而提高计算性能。