喵星之旅-调皮的大象-Spark-Yarn模式

安装使用

下载地址:
https://spark.apache.org/downloads.html
https://archive.apache.org/dist/spark/

上传并解压Spark安装包

1
2
3
tar -zxvf spark-3.1.3-bin-hadoop3.2.tgz -C /opt/bunny/
cd /opt/bunny
mv spark-3.1.3-bin-hadoop3.2 spark-yarn
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
修改hadoop配置文件/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml,添加如下内容
因为测试环境虚拟机内存较少,防止执行过程进行被意外杀死,做如下配置
[atguigu@hadoop102 hadoop]$ vim yarn-site.xml
<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>

<!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
4)分发配置文件
[atguigu@hadoop102 conf]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml

配置文件

1
2
3
4
cd /opt/bunny/spark-yarn/conf
mv spark-env.sh.template spark-env.sh
vim spark-env.sh

内容如下

1
YARN_CONF_DIR=/opt/bunny/hadoop-3.1.3/etc/hadoop

启动HDFS以及YARN集群

1
bunnyhadoop.sh start 

执行程序

1
2
3
4
5
6
7
cd /opt/bunny/spark-yarn/

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
./examples/jars/spark-examples_2.12-3.1.3.jar \
10

查看hadoop103:8088页面,点击History,查看历史页面

配置历史服务

1
2
3
4
cd /opt/bunny/spark-yarn/conf
mv spark-defaults.conf.template spark-defaults.conf
vim spark-defaults.conf

1
2
spark.eventLog.enabled          true
spark.eventLog.dir hdfs://h102:8020/directory
1
2
3
4
5
6
vim spark-env.sh

export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080
-Dspark.history.fs.logDirectory=hdfs://h102:8020/directory
-Dspark.history.retainedApplications=30"

vi /opt/bunny/spark-yarn/conf/spark-defaults.conf
添加如下内容:

1
2
spark.yarn.historyServer.address=h102:18080
spark.history.ui.port=18080

HDFS上的目录需要提前存在
hadoop fs -mkdir /directory

重启Spark历史服务

1
2
3
cd /opt/bunny/spark-yarn
sbin/stop-history-server.sh
sbin/start-history-server.sh

3)提交任务到Yarn执行

1
2
3
4
5
6
7
cd /opt/bunny/spark-yarn

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
./examples/jars/spark-examples_2.12-3.1.3.jar \
10

Web页面查看日志:http://h103:8088/cluster
点击“history”跳转到http://h102:18080/

点击yarn(8088)上spark任务的history按钮,进入的是spark历史服务器(18080),而不再是yarn历史服务器(19888)。

运行流程

文章目录
  1. 安装使用
  2. 配置文件
  3. 启动HDFS以及YARN集群
  4. 执行程序
  5. 配置历史服务
  6. 运行流程
|