美文网首页深度学习
图(graph)神经网络学习(四)--代码解析(Model_2)

图(graph)神经网络学习(四)--代码解析(Model_2)

作者: 布口袋_天晴了 | 来源:发表于2019-05-11 19:23 被阅读443次

    【2】Model_2: 1stChebNet(2017)-github:gcn  (https://github.com/tkipf/gcn)  (tensorflow)

    {Semi-Supervised Classification with Graph Convolutional Networks}基于图卷积网络的半监督分类

    文章:https://www.colabug.com/5231014.html

    Graph Convolutional Networks

    这是一个用tensorflow框架实现的图卷积神经网络,用来完成图中的节点类型分类,即是一个分类模型。

    两篇论文:

    【1】Semi-Supervised Classification with Graph Convolutional Networks (ICLR 2017)

    【2】Graph Convolutional Networks (2016)


    从github下载代码,上传到服务器上(尽量保证你的服务能连接外网,因为在调试程序时需要从外网中下载所需的数据,尽量保证你的服务器有GPU,因为有的代码常常会用GPU来加速),解压:unzip gcn-master.zip

    查看虚拟环境名:conda env list     

    选择一个虚拟环境激活:source activate your_env_name

    查看python版本:python   (python3)

    安装:python setup.py install

    成功安装

    查看requirements  

    ·tensorflow(>0.12)  

    ·networkx

    运行模型:

    cd gcn

    python train.py       或者自定数据集运行   python train.py --dataset citeseer

    正常运行结果:


    现在开始在本地pycharm中分析源代码

    setup.py可以看到作者Thomas Kipf已经他写的图卷积网络gcn做成了安装包,刚才运行的python setup.py install就是将该gcn模型安装到python的lib目录下。

    运行模型命令: python train.py

    以下是train.py代码,我们主要关心模型的输入数据格式。

    train.py代码

    以下截图是train.py的代码,从中可以看出,数据集有三个可选,模型种类有三个可选。

    数据集:'cora','citeseer','pubmed'

    模型:'gcn','gcn_cheby','dense'

    论文数据集介绍 train.py代码

    程序中的数据集,有三个整理好的数据集:'cora','citeseer','pubmed'

    utils.py代码 utils.py代码

    我们自己的数据集,处理成这个模型可用的格式。

    ·N*N的邻接矩阵  (N是图节点的个数)

    ·N*D的特征矩阵  (D是节点特征向量的维度)

    ·N*E 的分类标签矩阵  (E是类别个数)

    详细理解一下数据:

    ind.dataset_str.x文件 是train训练集实例的特征向量,按scipy.sparse.csr.csr_matrix稀疏矩阵存储的。

    ind.dataset_str.tx文件 是test测试集实例的特征向量,按scipy.sparse.csr.csr_matrix稀疏矩阵存储的。

    ind.dataset_str.allx文件 是所有(有标签和无标签)的train训练实例特征向量,按scipy.sparse.csr.csr_matrix稀疏矩阵存储的。  (半监督方法,一些标签数据,一些无标签数据)

    ind.dataset_str.y文件 是train训练数据集的one-hot类型的标签向量,按numpy.ndarray形式存储的。

    ind.dataset_str.ty文件 是test测试数据集的one-hot类型的标签向量,按numpy.ndarray形式存储的。

    ind.dataset_str.ally文件 是所有有标签数据的one-hot类型标签向量,按numpy.ndarray形式存储的。

    ind.dataset_str.graph文件 是一个字典{index:[index_of_neighbor_nodes]}

    ind.dataset_str.test.index文件 是测试数据集的index

    以上数据都用pickle存储。

    读取pickle数据显示如下:

    ind.cora.x数据   train训练数据 ind.cora.y数据   train数据集的标签one-hot向量 ind.cora.tx数据    test测试数据 ind.cora.ty数据   test数据集的标签one-hot向量   ind.cora.allx数据    所有(有标签和无标签)的train训练集  ind.cora.ally数据    所有有标签数据的one-hot类型标签向量   ind.cora.graph数据   字典

    再理解load_data()函数

    load_data()函数  图1 load_data()函数  图2 oad_data()函数  图3

    GCN的实验效果

    这个框架还支持多个图形实例(可能具有不同大小)的批量分类,每个实例具有一个邻接矩阵。 最好连接各个特征矩阵并构建(稀疏)块对角矩阵,其中每个块对应于一个图实例的邻接矩阵。 对于池化(在图形级输出而不是节点级输出的情况下),最好指定一个简单的池化矩阵,该矩阵从各自的图形实例中收集特征,如下所示:

    相关文章

      网友评论

        本文标题:图(graph)神经网络学习(四)--代码解析(Model_2)

        本文链接:https://www.haomeiwen.com/subject/qvdxaqtx.html