← 返回首页
Spark工作原理分析
发表时间:2023-10-03 06:08:52
Spark工作原理分析

Spark工作原理分析。

1.Spark的工作原理

通过下面这张图来分析一下Spark的工作原理。

首先看中间是一个Spark集群,可以理解为是Spark的standalone集群,集群中有6个节点。左边是Spark的客户端节点,这个节点主要负责向Spark集群提交任务,假设在这里我们向Spark集群提交了一个任务。那这个Spark任务肯定会有一个数据源,数据源在这我们使用HDFS,就是让Spark计算HDFS中的数据。当Spark任务把HDFS中的数据读取出来之后,它会把HDFS中的数据转化为RDD,RDD其实是一个弹性分布式数据集,它其实是一个逻辑概念,在这你先把它理解为是一个数据集合就可以了,后面我们会详细分析这个RDD。

Spark的基本工作原理简单来说就是:首先通过Spark客户端提交任务到Spark集群,然后Spark任务在执行的时候会读取数据源HDFS中的数据,将数据加载到内存中,转化为RDD,然后针对RDD调用一些高阶函数对数据进行处理,中间可以调用多个高阶函数,最终把计算出来的结果数据写到HDFS中。

2.什么是RDD

RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。RDD通常通过Hadoop上的文件,即HDFS文件进行创建,也可以通过程序中的集合来创建。

RDD的特征:

如果某个节点上的RDD partition,因为节点故障,导致数据丢了,那么RDD会自动通过自己的数据来源重新计算该partition的数据。