Spark Multi Tenancy系列 - 1 简述社区问题

作者: Kent_Yao | 来源:发表于2017-08-25 11:51 被阅读362次

Multi Tenancy

多租户，从软件架构定义，即于多用户的环境共用相同的系统或程序组件，计算资源根据一定的策略进行隔离、竞争、共享，并且仍可确保各用户间数据的隔离性。

对于Spark On Yarn而言，我们已经拥有了Yarn这款优秀的的资源管理工具，怎样实现Multi Tenancy呢。

1、不同用户写不同的Application，通过指定spark.yarn.queue提交到不同的队列;
2、使用Apache Zeppelin/Apache Azkaban notebook或者工作流调度工具，挺好用的
3、对于SQL程序，能不用spark自带的继承自HiveServer2的Spark ThriftServer呢，答案是否定的，原因后面细数。
4、自己写个服务/App，实例化多个SparkContext 提交多个Yarn Applications到不同的队列，恩，这也是不行的。
5、 Some Unknown 奇技淫巧

相关JIRA/PR

ISSUE	超链接	状态	简介
SPARK-2243	Support multiple SparkContexts in the same JVM	Resolved/Won't Fix	如该JIRA的标题所讲，支持单JVM多sc的特性。对于`Spark On Yarn`,一个SparkContext实例对应于一个YarnSchedulerBackend，继而对应于一个Yarn的Application，在runtime的时候也只能提交到特定的某一个队列运行。用户无法在自己的一个程序中实例化多个SparkContext然后指定不同的queue来实现多租户的效果。详细讨论可通过连接前往。
SPARK-5159	Thrift server does not respect hive.server2.enable.doAs=true	Unresolved/reopened	这是自然的。对于HiveServer2/Spark ThriftServer而言，一个thrift的Req里面包含客户端的`UserGroupInformation`，无论走不走代理（proxying/Impersonation)，doAs情况下，都会依赖于这个ugi去执行。前者没啥问题，一系列的进程都是通过这个ugi去拉起的，不会有冲突；后者不然，执行环境在Server启动的时候就已经由SparkSQLEnv给你实例化好了SparkContext，每次你openSession不过是得到一个sqlContext级别的东西了，执行环境ugi都是由linux user或者`spark.yarn.principal`指定的，在两个ugi不一致的情况下，doAs自然会有权限的问题。
SPARK-5159	[SPARK-5159][SQL] Make DAGScheduler event loop forwarding UGI info to processing thread	closed/unmerged	这个PR挺有意思，应该是在Task执行期间将UGI信息deliver到executor端，但是这样的话，所有客户端用户用的其实都是同一个yarn队列，资源上不存在隔离。

总结

1、SparkContext与Yarn的Application及队列一一对应，在一个服务里提供多租户，最先需要解决的问题就是SparkContext多实例的问题；
2、用户 -> SparkContext这个关系元组，在这问题中其实就是一个天然可以隔离这一切的最直接手段。
3、医生写代码实在太丑，文章写得差不多了会开源，勿喷。

网友评论

a055038b9083:可以啊，妹子，头像是什么鬼？哈哈
Kent_Yao:@田雨_a5a3 田老师好

本文标题：Spark Multi Tenancy系列 - 1 简述社区问题

本文链接：https://www.haomeiwen.com/subject/nedldxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Spark Multi Tenancy系列 - 1 简述社区问题

Multi Tenancy

相关JIRA/PR

总结

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Spark Multi Tenancy

spark