正确答案是C: 可修改。
分析如下:
- **A: 可分区**
Spark RDD(Resilient Distributed Dataset)是一个分布式的数据集合,它天然支持分区。分区是RDD并行处理的基础,Spark通过将数据分区到不同的节点上来实现分布式计算。
- **B: 可序列化**
RDD需要在集群节点之间进行传输,因此必须是可序列化的。Spark使用Java序列化或Kryo序列化来实现这一点,以便在网络上传输数据。
- **C: 可修改**
RDD是不可变的(immutable),这意味着一旦创建,它就不能被修改。每次对RDD的操作都会生成一个新的RDD。这种不可变性有助于保证数据的安全性和一致性,并简化并行计算的实现。
- **D: 可持久化**
RDD可以被持久化到内存或磁盘,以便在后续的计算中重复使用而不需要重新计算。这是通过调用`persist()`或`cache()`方法实现的。
因此,RDD的不可修改性是其一个重要特点,选项C“可修改”不是RDD的特点。