Spark RDD的特性分析-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

下面哪个不是Spark RDD 的特点？

A. 可分区

B. 可序列化

C. 可修改

D. 可持久化

上一题

下一题

题目解析

题目评论(0)

正确答案是C: 可修改。

分析如下：

- **A: 可分区**
Spark RDD（Resilient Distributed Dataset）是一个分布式的数据集合，它天然支持分区。分区是RDD并行处理的基础，Spark通过将数据分区到不同的节点上来实现分布式计算。

- **B: 可序列化**
RDD需要在集群节点之间进行传输，因此必须是可序列化的。Spark使用Java序列化或Kryo序列化来实现这一点，以便在网络上传输数据。

- **C: 可修改**
RDD是不可变的（immutable），这意味着一旦创建，它就不能被修改。每次对RDD的操作都会生成一个新的RDD。这种不可变性有助于保证数据的安全性和一致性，并简化并行计算的实现。

- **D: 可持久化**
RDD可以被持久化到内存或磁盘，以便在后续的计算中重复使用而不需要重新计算。这是通过调用`persist()`或`cache()`方法实现的。

因此，RDD的不可修改性是其一个重要特点，选项C“可修改”不是RDD的特点。