前提: Hadoop on YARN 提前安装完成
Scala 安装
安装路径:
解压压缩文件到 ~/workspace/ 下
修改环境变量:123$ vim ~/.bashrc export SCALA_HOME=$HOME/workspace/scala-2.11.7 export PATH=$SCALA_HOME/jre/bin:$PATH
配置生效:1source ~/.bashrc
验证安装:1scala -version
Spark 安装
解压压缩文件到 ~/workspace 下
修改环境变量
|
|
配置生效:1source ~/.bashrc
修改 Spark 配置
配置文件在
~/workspace/spark-1.5.1/conf
123cd ~/workspace/spark-1.5.1/conf #进入spark配置目录cp spark-env.sh.template spark-env.sh #从配置模板复制vim spark-env.sh #添加配置内容spark-env.sh
末尾增加:123SPARK_MASTER_IP=h16SPARK_LOCAL_DIRS=/home/hadoop/workspace/spark-1.5.1SPARK_DRIVER_MEMORY=1Gslaves
增加slave host
:123h16h17h18将
.bashrc
和spark-1.5.1
分发到各个 slave 服务器上:1234scp ~/.bashrc h17:/home/hadoopscp ~/.bashrc h18:/home/hadoopscp -r ~/workspace/spark-1.5.1 h17:/home/hadoop/workspacescp -r ~/workspace/spark-1.5.1 h18:/home/hadoop/workspace
提示: 在设置Worker进程的CPU个数和内存大小, 要注意机器的实际硬件条件, 如果配置的超过当前Worker节点的硬件条件, Worker 进程会启动失败.
Spark 启动
在 master(h16) 上启动 spark1sbin/start-all.sh
验证启动情况:
在 Master 服务器上查看(匹配 80%)
123456jps # h1613971 NameNode14326 SecondaryNameNode31036 Jps14519 ResourceManager16722 Master在 Worker 服务器上查看(匹配 80%)
12345jps # h1614642 NodeManager14123 DataNode31036 Jps16901 Worker
在 浏览器上打开 h16:8080, 可以查看 spark on yarn 的管理状态.
运行示例
Spark on YARN
支持两种运行模式, 分别为 yarn-cluster
和 yarn-client
.
从广义上讲, yarn-cluster
适用于生产环境; yarn-client
适用于交互和调试.
本地模式两线程运行
1./bin/run-example SparkPi 10 --master h16Spark Standalone 集群模式运行
12345./bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://h16:7077 \lib/spark-examples-1.5.1-hadoop2.6.0.jar \100Spark on YARN 集群上 yarn-cluster 模式运行
12345./bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn-cluster \ # can also be `yarn-client`lib/spark-examples*.jar \10