前言

Alluxio官方文档介绍了Hive的配置方法，也介绍了Spark的配置方法，重点介绍了Spark程序如何访问Alluxio上的文件，但是没有介绍如何配置SparkSQL（这里指纯SQL方式，不是DataFrame编程），笔者仿照Hive的方式配置SparkSQL，但数据始终无法落到内存上（load、insert都不行）。

本文重点介绍如何为SparkSQL配置Alluxio，为SparkSQL插上飞翔的翅膀。

本文的环境：
Hadoop-2.7.1
Hive-1.2
Spark-2.1.1（刚刚发布的2.2对SparkSQL又做了大量优化（如CBO等）
Alluxio-1.4

启动Alluxio的用户

Alluxio默认支持文件系统用户和权限检查。为了确保HDFS中包括用户，组和模式的文件/目录的权限信息与Alluxio一致，启动Alluxio master和worker进程的用户要求是以下任一情况：

HDFS超级用户。即，使用启动HDFS namenode进程的同一用户也启动Alluxio master和worker进程。
HDFS超级用户组的成员。编辑HDFS配置文件hdfs-site.xml并检查配置属性dfs.permissions.superusergroup的值。如果使用组（例如，“hdfs”）设置此属性，则将用户添加到此组（“hdfs”）以启动Alluxio进程（例如，“alluxio”）;如果未设置此属性，请将一个组添加到此属性，其中Alluxio运行用户是此新添加组的成员。

注意，上面设置的用户只是用于启动Alluxio master和worker进程。一旦Alluxio服务器启动，就不必使用此用户运行Alluxio客户端应用程序。

如果Hadoop的超级用户是hdfs，而启动Alluxio的用户是root，那么你会遇到各种权限相关的异常。
解决方法：将现在启动alluxio进程root用户加入hdfs用户组中。
usermod -a -G hdfs root（注意记得加-a，否则root会从原来的组移除）

从Hive开始

Hive在Hadoop&Spark生态中已经是不成文的事实标准，大部分主流的SQL on Hadoop引擎都会或多或少的依赖Hive或可与Hive共享存储仓库和元数据库，如SparkSQL、Impala、Presto、HAWQ、Drill等等。

配置Hadoop

配置Hive之前需要配置Hadoop（前提是Hive的执行引擎是MR）
将以下三个属性添加到Hadoop的安装目录下的conf目录中的core-site.xml文件中：

<property>
  <name>fs.alluxio.impl</name>
  <value>alluxio.hadoop.FileSystem</value>
</description>
</property>
<property>
  <name>fs.alluxio-ft.impl</name>
  <value>alluxio.hadoop.FaultTolerantFileSystem</value>
</property>
<property>
  <name>fs.AbstractFileSystem.alluxio.impl</name>
  <value>alluxio.hadoop.AlluxioFileSystem</value>
</description>
</property>

该配置使MapReduce识别Alluxio的URI（如alluxio:// ）

其次, 在conf目录中hadoop-env.sh文件中修改$HADOOP_CLASSPATH：

export HADOOP_CLASSPATH=${HADOOP_CLASSPATH}::/opt/alluxio/alluxio-1.4.0/core/client/target/alluxio-core-client-1.4.0-jar-with-dependencies.jar

分发alluxio-core-client-1.4.0-jar-with-dependencies.jar，有多种方式，可以在跑MR程序时用-libjars指定，也可以放到alluxio每个节点的置于每个MapReduce节点的$HADOOP_HOME/lib（由于版本不同也可能是$HADOOP_HOME/share/hadoop/common/lib），如果您使用的Hadoop做了些优化，将一些jar包提前放到了HDFS上，那么需要将该jar包放到hdfs上。笔者重新打包了mapreduced.tar.gz，并上传至hdfs的/hdp/apps/2.3.4.0-3485/mapreduce/目录下

配置Hive

参考官方文档配置Hive

添加以下配置项到你的Hive安装目下的conf目录里的hive-site.xml中：

<property>
   <name>fs.defaultFS</name>
   <value>alluxio://node1:19998</value>
</property>

使用Hive过程中遇到的异常：

Could not setMode for UFS file hdfs://node1.hde.h3c.com:8020/tmp . Aborting the setAttribute operation in Alluxio.

原因是Hive找不到alluxio的jar包，笔者更新了HDFS上Hive的jar包（/hdp/apps/2.3.4.0-3485/hive/hive.tar.gz），将alluxio-core-client-1.4.0-jar-with-dependencies.jar打到了这个tar包中

在Hive中见表，并插入一条数据（insert语句），测试发现数据缓存到了Alluxio，如下图所示：

数据在内存中

SparkSQL相遇

启动spark-sql命令行，执行insert向刚才hive中创建的表插入一条数据：

sparksql中向hive创建的表插入数据

发现在SparkSQL中插入的一条数据也存在了内存中，如下图所示：

sparksql向hive中建的表插入数据，存入内存

在SparkSQL中创建一张新表，并插入数据

建表并插入数据

查看Alluxio向的缓存情况，如下图所示，数据全部落到HDFS上，并未存到内存中。

未存到内存中

总结一下：

Hive配置Alluxio成功后，在Hive中建表并插入数据，可存入Alluxio内存，在SparkSQL中向这个表插入数据，也能缓存到内存。

在SparkSQL中建表并插入数据，不能缓存到Alluxio的内存中。

如何能SparkSQL建表并插入的数据缓存到Alluxio的内存中呢？

经研究发现配置Hive时，修改的fs.defaultFS配置针对Hive是起作用的，但是SparkSQL并不解析这个配置，所以就算在spark-home/conf/hive-site.xml加上这个配置也不会起作用。

幸好，Hive提供了修改元数据属性的工具metatool，我们可以通过此工具修改fs的类型：

-listFSRoot                           print the current FS root locations
-updateLocation <new-loc> <old-loc>   Update FS root location in the
                                       metastore to new location.Both
                                       new-loc and old-loc should be valid
                                       URIs with valid host names and
                                       schemes.When run with the dryRun
                                       option changes are displayed but
                                       are not persisted. When run with
                                       the serdepropKey/tablePropKey
                                       option updateLocation looks for the
                                       serde-prop-key/table-prop-key that
                                       is specified and updates its value
                                       if found.

修改过程如下所示，通过此命令将hive的warehouse从hdfs上修改到了alluxio上。

[root@node2 hive]# bin/metatool -listFSRoot
hdfs://node1.hde.h3c.com:8020/apps/hive/warehouse/hmr.db
hdfs://node1.hde.h3c.com:8020/apps/hive/warehouse
[root@node2 hive]# bin/metatool --updateLocation alluxio://node1:19998 hdfs://node1.hde.h3c.com:8020
Updated 12 records in SDS table
[root@node2 hive]# bin/metatool -listFSRoot
alluxio://node1:19998/apps/hive/warehouse/hmr.db
alluxio://node1:19998/apps/hive/warehouse

测试是否管用，新建一张表并插入数据：

spark-sql> create table test_sparksql2(id int, name string);
Time taken: 1.023 seconds
spark-sql> insert into test_sparksql2 values(1, 'aa');
Time taken: 2.294 seconds
spark-sql> select * from test_sparksql2;
1   aa
Time taken: 0.821 seconds, Fetched 1 row(s)

查看Alluxio的缓存情况，如下图所示，数据全部缓存到内存中。