SparkSQL 与 Hive 整合
前提: 已经配置好 Hive, Spark.
配置 SparkSQL 数据源
- 将 $HIVE_HOME/conf/中的hive-site.xml和hive-log4j.properties复制到$SPARK_HOME/conf中. 如果$SPARK_HOME/conf中没有hive-site.xml, 那么spark-sql,spark beeline不能正确获取hive table中的元数据和正确查询.
- 在 - $SPARK_HOME/conf/spark-env.sh中添加- HIVE_HOME,- SPARK_CLASSPATH:12export HIVE_HOME=/home/hadoop/workspace/hive-1.2.1export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-5.1.37-bin.jar:$SPARK_CLASSPATH
- 可以设置 - Spark中的 log4j 配置文件, 使屏幕不打印额外 INFO 信息:
 log4j.rootCategory=WARN, console
- 重新启动 - spark
- 启动 - thriftserver,- spark sql提供了- thrift server, 其功能相当于- hiveServer2, 提供 beeline 或 jdbc 客户端.- $SPARK_HOME/sbin/start-thriftserver.sh –hiveconf hive.server2.thrift.port=10115 
SparkSQL 验证
使用连接 URL “jdbc:hive2://h16:10115/mydb” 连接 SparkSQL 的 thrift server 中.