Spark性能提升原因分析-CDA考试官方模拟题库

备考刷题，请到

CDA认证小程序

下面哪些是Spark比Mapreduce计算快的原因？（多选）

A. 基于内存的计算

B. 基于DAG的调度框架

C. 基于Lineage的容错机制

D. 基于分布式计算的框架

上一题

下一题

题目解析

题目评论(0)

Spark相较于MapReduce在计算速度上的优势主要体现在以下几个方面：

A: 基于内存的计算
Spark的一个显著特点是其内存计算能力。它允许数据在内存中进行多次迭代计算，而不是像MapReduce那样每次迭代都需要将数据写入磁盘。这种内存计算大大减少了磁盘I/O操作，从而提高了计算速度。

B: 基于DAG的调度框架
Spark采用DAG（Directed Acyclic Graph，有向无环图）调度框架来优化任务执行。DAG允许Spark在计算任务中更好地优化执行计划，减少不必要的计算步骤和数据传输，从而提高整体计算效率。

C: 基于Lineage的容错机制
虽然Lineage（血统）本身不是直接提高速度的因素，但它提供了一种高效的容错机制。通过记录RDD（弹性分布式数据集）的转换过程，Spark可以在节点故障时快速重建丢失的数据，而不需要从头开始重新计算整个数据集。这种机制减少了故障恢复时间，从而间接提高了计算效率。

D: 基于分布式计算的框架
虽然分布式计算是Spark和MapReduce的共同特性，但这一点并不是Spark比MapReduce快的原因。两者都是分布式计算框架，差异在于实现方式和优化策略。

综合分析，A、B和C是Spark比MapReduce计算快的主要原因。因此，正确答案是A、B和C。