SparkSQL四种连接Hive的方法

作者: 抬头挺胸才算活着 | 来源:发表于2021-12-25 08:03 被阅读0次

连接内置的Hive
内置的Hive的元数据存放在derby数据库中
可以运行以下的SQL语句

spark.sql("show tables").show
spark.sql("create table aa(id int)")
spark.sql("load data local inpath 'input/ids.txt' into table aa")
spark.sql("select * from aa").show

外部的Hive
将hive/conf/hive-site.xml 拷贝到spark的conf目录下.
将Hive元数据库MySQL的驱动jar包拷贝到spark的jars目录下，如果是Derby不需要拷贝.
如果访问不到HDFS，将hdfs-site.xml，以及core-site.xml拷贝到spark的conf目录下.
启动spark-sql，然后执行spark.sql("show tables").show,你就会发现现在访问的是外部hive的数据.
更多请参见参考资料

参考资料：
spark-之访问Hive数据源（外部、内部Hive、thrift server）