Neo4J展示数据任务的依赖关系及相关属性

作者: 风筝flying | 来源:发表于2019-06-21 15:55 被阅读0次

Neo4J展示数据任务的依赖关系及相关属性
关系数据库设计理论
Spring Data Neo4j 使用
数据库
数据库
【设计模式】UML类图及Java的类之间的关系
Neo4j算法介绍
Java实现Neo4j数据库的相关操作
neo4j删除所有节点和关系
数据库

背景

工作中希望将复杂的数据Job的属性及相互间的依赖关系通过图形化展示，以便于清晰的展示路径依赖。现有的数据Job的元数据信息存储在关系型数据库，格式如下（数据为测试数据）：

image.png

字段含义：

id:Job的编号
name:Job的名称
depencies:Job依赖的Job的编号
owner:Job的归属账号
lvl:Job的优先级
user:Job的创建人
目标通过在图数据中建立4类节点，4种关系描述数据任务的属性及相互关系，具体结构如下：

image.png

图形数据库采用Neo4J数据库，开发语言为Python3.7,开发IDE采用Pycharm/Jupyter

初始化图数据库

首先导入当前的全量数据存为DataFrame,为了讲解方便，数据我下载到了本地Excel文件，实际部署时改成连接关系型数据库

from py2neo import Graph,Node,Relationship,NodeMatcher,RelationshipMatcher
import numpy as np
import pandas as pd
basic_dataframe=pd.read_excel('D:\\jobrelation\\test.xlsx',sheet_name=0,usecols='A:F')

数据导入后，需要检查下数据的质量，做一些必要的数据清洗

数据治理

print(incre_dataframe.isnull().any())#查看列中是否有空值
incre_dataframe.dtypes#查看列数据类型
incre_dataframe['id']=incre_dataframe['id'].astype(str)#更改列的数据类型
incre_dataframe['lvl']=incre_dataframe['lvl'].astype(str)
incre_dataframe['depencies'].fillna('config_time_run',inplace=True)#处理空值

在确保数据质量后，连接图数据库

graph=Graph("http://localhost:7474",username='neo4j',password='passwd')

然后分别来初始化各节点

创建标签是Job的节点

for i in range(basic_dataframe.shape[0]):
    try:
        n=Node('Job',name=basic_dataframe.iloc[i]['name'],JobId=basic_dataframe.iloc[i]['id'])
        graph.create(n)
    except Exception as e:
        print(e)
        print(basic_dataframe.iloc[i]['id'])
        print(i)

创建标签是Lvl的节点

lvl_dict={'1':'low','2':'medium','3':'high'}
for name,group in basic_dataframe.groupby('lvl'):
    na=Node('Lvl',LvlId=name,LvlName=lvl_dict.get(name))
    graph.create(na)

创建标签是Owner的节点，并将数据记录在字典

owner_dict={}
owner_start_id=100000
for name,group in basic_dataframe.groupby('owner'):
    owner_dict[name]=owner_start_id
    na=Node('Owner',OwnerId=owner_start_id,OwnerName=name)
    graph.create(na)
    owner_start_id+=1

创建标签是User的节点，并将数据记录在字典

user_dict={}
user_start_id=200000
for name,group in basic_dataframe.groupby('user'):    
    user_dict[name]=user_start_id
    na=Node('User',UserId=user_start_id,UserName=name)
    graph.create(na)
    user_start_id+=1

如上，4类节点已创建完成，接下来创建各节点间的关系。

创建user和job的关系

matcher=NodeMatcher(graph)
for row in basic_dataframe.itertuples(index=True,name='Pandas'):
    job_node=matcher.match('Job').where(JobId=getattr(row,'id')).first()
    user_node=matcher.match('User').where(UserId=user_dict.get(getattr(row,'user'))).first()
    r=Relationship(user_node,'Create',job_node)
    graph.create(r)

创建job和owner的关系

for row in basic_dataframe.itertuples(index=True,name='Pandas'):
    job_node=matcher.match('Job').where(JobId=getattr(row,'id')).first()
    owner_node=matcher.match('Owner').where(OwnerId=owner_dict.get(getattr(row,'owner'))).first()
    r=Relationship(job_node,'Belongto',owner_node)
    graph.create(r)

创建job和level的关系

for row in basic_dataframe.itertuples(index=True,name='Pandas'):
    job_node=matcher.match('Job').where(JobId=getattr(row,'id')).first()
    lvl_node=matcher.match('Lvl').where(LvlId=getattr(row,'lvl')).first()
    r=Relationship(job_node,'Level',lvl_node)
    graph.create(r)

创建job和job之间的依赖关系

for row in basic_dataframe.itertuples(index=True,name='Pandas'):
    job_node=matcher.match('Job').where(JobId=getattr(row,'id')).first()
    depencies_job=str(getattr(row,'depencies'))
    if depencies_job!='config_time_run' and depencies_job.find(':')!=-1:
        for index,val in enumerate(depencies_job.split(':')):
            depency_job_node=matcher.match('Job').where(JobId=val).first()
            if not depency_job_node is None:
                r=Relationship(job_node,'Depency',depency_job_node)
                graph.create(r)
    elif depencies_job!='config_time_run' and depencies_job.find(':')==-1:
        depency_job_node=matcher.match('Job').where(JobId=depencies_job).first()
        if not depency_job_node is None:
            r=Relationship(job_node,'Depency',depency_job_node)
            graph.create(r)
    else:
        pass

至此，全量数据的图数据库初始化已经完成，接下来实现增量的更新。

数据的增量更新

数据的增量更新考虑过两种方案，一是开启MySQL的binlog，实时同步元数据的更新操作；二是通过最后更新时间字段，每10分钟取一次增量数据，进行更新。综合考虑了项目的实时性要求和开发复杂度，选择了第二种方案。

导入增量数据，同上一步，依然以本地文件为例

incre_dataframe=pd.read_excel('d:\\jobrelation\\test.xlsx',sheet_name=1,usecols='A:F')

数据治理，同上，不再祥述
判断增量数据中是否有新增的owner,如有则加入Owner节点

max_owner_id=int(graph.run('match (owner:Owner) return max(owner.OwnerId)').to_data_frame().iat[0,0])#找出当前最大的ownerId，并转成int
for name,group in incre_dataframe.groupby('owner'):
    if(nodematcher.match("Owner").where(OwnerName=name).first() is None):
        max_owner_id+=1
        na=Node('Owner',OwnerId=max_owner_id,OwnerName=name)
        graph.create(na)

判断增量数据中是否是新增的User,如有则加入User节点

max_user_id=int(graph.run('match (user:User) return max(user.UserId)').to_data_frame().iat[0,0])
for name,group in incre_dataframe.groupby('user'):
    if(nodematcher.match("User").where(UserName=name).first() is None):
        max_user_id+=1
        na=Node('User',UserId=max_user_id,UserName=name)
        graph.create(na)

接下来是对增量数据中的Job信息的处理，本案中采取的解决办法是对增量数据中的JobId，如果在当前的Job节点中存在，则删除该JobId及其的相应关系，然后依据增量数据重建该JobId及其关系

重/新建增量数据中JobId节点

#job_node_dict={}
for row in incre_dataframe.itertuples(index=True,name='Pandas'):
    job_node=nodematcher.match('Job').where(JobId=getattr(row,'id')).first()
    #job_node_dict[getattr(row,'id')]=(0 if(job_node is None) else 1)
    if not job_node is None:
        cql='match(job:Job{JobId:"'+getattr(row,'id')+'"}) detach delete job'
        graph.run(cql)
    n=Node('Job',name=getattr(row,'name'),JobId=getattr(row,'id'))
    graph.create(n)

重/新建增量数据JobId的相应关系

for row in incre_dataframe.itertuples(index=True,name='Pandas'):
    job_node=nodematcher.match('Job').where(JobId=getattr(row,'id')).first()
    name=str(getattr(row,'name'))
    depencies_job=str(getattr(row,'depencies'))
    user=str(getattr(row,'user'))
    owner=str(getattr(row,'owner'))
    lvl=str(getattr(row,'lvl'))
    #job和依赖job间的关系
    if depencies_job!='config_time_run' and depencies_job.find(':')!=-1:
        for index,val in enumerate(depencies_job.split(':')):
            depency_job_node=nodematcher.match('Job').where(JobId=val).first()
            if not depency_job_node is None:
                r=Relationship(job_node,'Depency',depency_job_node)
                graph.create(r)
    elif  depencies_job!='config_time_run' and depencies_job.find(':')==-1:
        depency_job_node=nodematcher.match('Job').where(JobId=depencies_job).first()
        if not depency_job_node is None:
            r=Relationship(job_node,'Depency',depency_job_node)
            graph.create(r)
    else:
        pass
    #job和Owner的关系
    owner_node=nodematcher.match('Owner').where(OwnerName=owner).first()
    r=Relationship(job_node,'Belongto',owner_node)
    graph.create(r)
    #job和level的关系
    lvl_node=nodematcher.match('Lvl').where(LvlId=lvl).first()
    r=Relationship(job_node,'Level',lvl_node)
    graph.create(r)
    #job和user的关系
    user_node=nodematcher.match('User').where(UserName=user).first()
    r=Relationship(user_node,'Create',job_node)
    graph.create(r)

目前效果及后续方向

在图数据库的效果如下：[图片上传中...(image.png-12ee9d-1561103426948-0)]

image.png

目前的效果需要在Neo4j的数据界面通过Cypher来查询，接下来希望能开发web页面，方便非开发人员使用。ps:稍微看了下图数据库与web结合的例子，前端这些东东真是头大啊！如果找不到前端资源，就只能硬着头皮自己来O(∩_∩)O哈哈~

Neo4J展示数据任务的依赖关系及相关属性
背景工作中希望将复杂的数据Job的属性及相互间的依赖关系通过图形化展示，以便于清晰的展示路径依赖。现有的数据Jo...
关系数据库设计理论
数据依赖是关系内部属性之间相关联系的表达，是语义的体现，是构成数据的约束，大多数数据依赖是函数依赖，它是关系中“键...
Spring Data Neo4j 使用
添加Spring Data Neo4j相关依赖 application.yml添加Neo4j环境配置 Neo4j中...
数据库
一、相关概念和知识点 1.数据依赖：反映一个关系内部属性与属性之间的约束关系，是现实世界属性间相互联系的抽...
数据库
一、相关概念和知识点 1.数据依赖：反映一个关系内部属性与属性之间的约束关系，是现实世界属性间相互联系的抽...
【设计模式】UML类图及Java的类之间的关系
UML类图展示设计模式中的对象关系关联和依赖的对比依赖关系虚线箭头依赖是a类成员方法中有b类的属性，动物新...
Neo4j算法介绍
neo4j为图数据库，其中涉及的也就为图算法，图算法被用来度量图形，节点及关系。在neo4j中，通过call a...
Java实现Neo4j数据库的相关操作
1.Java实现Neo4j数据库的相关操作 2.图形数据库 Neo4j 开发实战 3.用java构建neo4j数据...
neo4j删除所有节点和关系
1、neo4j清空所有节点和关系命令如下： 2、neo4j中删除所有节点属性：（1）进入neo4j的安装目录： ...
数据库
1.数据依赖：反映一个关系内部属性与属性之间的约束关系，是现实世界属性间相互联系的抽象，属于数据内在的性质...

Neo4J展示数据任务的依赖关系及相关属性

背景

初始化图数据库

数据的增量更新

目前效果及后续方向

相关文章

Neo4J展示数据任务的依赖关系及相关属性

关系数据库设计理论

Spring Data Neo4j 使用

数据库

数据库

【设计模式】UML类图及Java的类之间的关系

Neo4j算法介绍

Java实现Neo4j数据库的相关操作

neo4j删除所有节点和关系

数据库

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读