← 返回首页
Spark架构原理
发表时间:2023-10-04 16:38:14
Spark架构原理

Spark架构原理。

1.Spark架构相关进程

我们以Spark的standalone集群为例进行分析Spark的相关进程。

2.Spark架构原理

通过下面这个图,我们来分析一下Spark的架构原理。

  1. 首先我们在spark的客户端机器上通过driver进程执行我们的Spark代码,当我们通过spark-submit脚本提交Spark任务的时候Driver进程就启动了。
  2. Driver进程启动之后,会做一些初始化的操作,会找到集群master进程,对Spark应用程序进行注册。
  3. 当Master收到Spark程序的注册申请之后,会发送请求给Worker,进行资源的调度和分配。
  4. Worker收到Master的请求之后,会为Spark应用启动Executor进程,会启动一个或者多个Executor,具体启动多少个,会根据你的配置来启动。
  5. Executor启动之后,会向Driver进行反注册,这样Driver就知道哪些Executor在为它服务了。
  6. Driver会根据我们对RDD定义的操作,提交一堆的task去Executor上执行,task里面执行的其实就是具体的map、flatMap这些操作。