美文网首页程序员
(一)atlas源码:源码架构

(一)atlas源码:源码架构

作者: 1994_老叶 | 来源:发表于2022-08-31 11:40 被阅读0次

    基本信息

    Aparche Atlas是Hadoop数据治理与元数据框架,对元数据进行采集分类,提供高效的查询,还支持血缘关系的查询


    代码模块介绍

    根据架构图,我们从下至上介绍,我个人主要类比三层模型

    数据库层(有点像DAO层)

    由上面的图我们知道atlas数据存储模块使用的图数据库--janusgraph,而下图中graphdb的代码模块就是atlas对于这部分的封装,

    首先需要知道的一点,在这个模块,我个人觉得,atlas在声明接口的时候有点DDD的味道

    • api: 定义了各个实体对象抽象,边界上下文等多个顶级接口,封装定义了图,顶点,边,边的方向,图的遍历器,图的索,图管理器等多个聚合根,聚合根只是定义了各个领域中的
    • common: 图数据库公共代码,主要是Tinkerpop图数据库和图计算框架,主要提供了图数据库查询表达式(例如and,has,in,or,orderby)和查询接口
    • janus: JanusGraph图数据库实现模块
      • graphson:主要提供GraphSON格式数据操作实用工具方法,主要工具方法和业务代码在AtlasGraphSONUtility类中,提供唯一的公共静态API方法:jsonFromElement,用于将图元素对象转化成json格式的GraphSON对象
      • migration包:数据迁移相关的代码包,主类是GraphDBGraphSONMigrator,用于导入旧数据,入口方法:importData
      • query包:查询相关的代码包,主要提供图计算查询构造器AtlasJanusGraphQuery
      • serializer包:序列化相关的的代码包,提供几种数据类型的序列化实现
      • 另外是一些图数据库操作相关的类

    优点:良好的命名,良好的注释,大部分代码是在16年写的,风格非常好

    仓库层(有点像service层)

    跟我们的service层较相似,提供了对atlas中各种对象的增删查改逻辑,源码主要集中在repository模块中


    • discovery:提供text,entity,type等各种检索功能,这代码分为两层,一个接口层,一个实现层,先看接口描述,再看具体逻辑
    • entitytransform:实体转化处理相关的代码
    • glossary:提供元数据术语相关的操作服务
    • listener:type和entity变化的监听的接口定义
    • query:提供基于Gremlin图遍历语言和DSL(Domain Specific Search)语言的元数据查询服务
    • repository: Atlas元数据仓库核心服务
      • audit :提供元数据仓库操作日志审计功能
      • converters:Atlas各种数据类型格式转换处理
      • graph:提供图数据库服务
      • impexp:元数据导入导出处理
      • migration:数据迁移服务
      • ogm:各种数据传输对象DTO定义
      • patches:补丁管理服务
      • userprofile:用户Profile服务
    • services:提供统计度量服务
    • task: atlas底层任务的定义
    • store:Atlas元数据存储访问服务层
    • util:提供实用工具API
    • GraphTransactionAdvisor 图事务切面,GraphTransactionInterceptor图事务拦截器

    集成层(类比controller层)

    其中定可以分为三个部分,intg包,notification包,web-app包

    intg

    在接口,web UI中展示的大多数内容都定义在这里,type,entity等

    • bulkimport:批量导入的返回值

    • exception:atlas基础异常类

    • model:提供各种模型定义

    • security:提供安全相关的配置管理

    • type包:提供各种Atlas类型定义

    • typesystem.types:定义了一个atlas类型目录枚举类,GraphDB 中的顶点属性使用过程中引用了这个类型

    • utils包:提供Atlas实体处理的实用工具静态API方法、Kerberos认证的实用工具静态API方法

    • v1:提供V1版本的模型定义和类型操作API方法

    • ApplicationProperties和AtlasConfiguration提供Atlas属性参数管理

    • AtlasErrorCode和AtlasException:atlas的异常码定义和异常定义(这个地方有点疑问,为什么不放在exception包里面,单独拿出来有什么特别的意义吗)

    • DeleteType和SortOrder:删除枚举类(软删除和硬删除)和排序枚举类(升序和降序)

    messaging

    对应notification包,kafka消息的处理,hook 发送过来的消息就在这里处理,这里值得注意一点,atlas会在kafka中创建两个topic:ATLAS_ENTITIES和ATLAS_HOOK

    ATLAS_HOOK:各个hook获取的元数据通过该topic发送给atlas。atlas中的小标题写的很好,Notifications to Apache Atlas

    atlas中的原文:

    Apache Atlas can be notified of metadata changes and lineage via notifications to Kafka topic named ATLAS_HOOK. Atlas hooks for Apache Hive/Apache HBase/Apache Storm/Apache Sqoop use this mechanism to notify Apache Atlas of events of interest.
    

    ATLAS_ENTITIES:atlas将元数据信息通过该topic通知给其他应用。atlas中的小标题,Notifications from Apache Atlas

    原文:

    Apache Atlas sends notifications about metadata changes to Kafka topic named ATLAS_ENTITIES . Applications interested in metadata changes can monitor for these notifications. For example, Apache Ranger processes these notifications to authorize data access based on classifications.
    
    API<HTTP/REST>

    对应webapp包,这个包定义了web调用的api和client包中实际调用的api,跟我们平时使用的controller很像

    • examples:提供测试web api的例子,可以模仿着做快速的接口测试
    • notification:消息通知处理,就跟上面模块将的那样,这里主要进行ATLAS_ENTITIES中的消息的创建
    • util: 这个包只有一个类--CredentialProviderUtility,用于生成凭证提供程序的工具类
    • web:包含用户登陆访问数据接口,异常错误处理,登陆认证的过滤器,用户登录处理,用户属性的定义,参数定义,资源信息api接口,各种元数据相关的rest接口,安全事务处理,基础服务,web服务自动装配,工具包等内容
    • atlas类,单机服务启动的驱动等

    数据入口(metadata sources)

    对应代码的addons模块,这里主要定义了各个hook的桥接代码


    这个主要使用了Apache Falcon,一个开源的hadoop数据生命周期管理框架, 它提供了数据源 (Feed) 的管理服务,如生命周期管理,备份,存档到云等,通过Web UI可以很容易地配置这些预定义的策略, 能够大大简化hadoop集群的数据流管理。

    主要相关代码是两个模块falcon-bridge和falcon-bridge-shim

    剩下的模块就是hive,hbase等多种组件将元数据导入到atlas的桥接口扩展模块。

    数据出口(apps)

    对应的代码中的authorization,dashboardv2这些模块

    authorization是atlas的鉴权模块,支持simple鉴权和ranger两种鉴权模式

    dashboardv2是前端代码,就是web UI页面。

    client是atlas对外提供的接口(openAPI)声明,有两个版本,目前主要使用v2版本

    其他模块介绍

    刚刚讲了atlas架构图上直观感受到的代码模块,还有一些代码模块没用提及到

    common: 公共模块,主要提供启动和停止所有服务的功能、公共配置和高可用配置管理、公共注解接口、Groovy表达式定义

    3party-licenses:第三方组件许可

    build-tools:构建工具,主要是checkstyle的代码检查

    dev-support:开发支持,主要跟docker开发相关的支持

    distro:atlas分布式部署相关的配置文件,关于zk,hbase,solr等

    docs:atlas的相关文档

    plugin-classloader:加载atlas插件的加载类

    test-tools:测试工具模块,本地运行solr

    tools:工具模块,atlas索引修复,元数据导出等

    写在最后的话

    我在掘金平台也发了同样的文章,因为自己平时社交能力有限,很想通过写技术文章认识一些朋友,欢迎私信留言,交个朋友

    相关文章

      网友评论

        本文标题:(一)atlas源码:源码架构

        本文链接:https://www.haomeiwen.com/subject/tofknrtx.html