Facebook:BigGraph 中文文档-批预处理(PyTo

作者: 沐曌 | 来源:发表于2019-08-26 16:13 被阅读4次

    目录

    图嵌入是一种从图中生成无监督节点特征(node features)的方法,生成的特征可以应用在各类机器学习任务上。现代的图网络,尤其是在工业应用中,通常会包含数十亿的节点(node)和数万亿的边(edge)。这已经超出了已知嵌入系统的处理能力。Facebook开源了一种嵌入系统,PyTorch-BigGraph(PBG),系统对传统的多关系嵌入系统做了几处修改让系统能扩展到能处理数十亿节点和数万亿条边的图形。

    本系列为翻译的pytouch的官方手册,希望能帮助大家快速入门GNN及其使用,全文十五篇,文中如果有勘误请随时联系。

    (一)Facebook开源图神经网络-Pytorch Biggraph

    (二)Facebook:BigGraph 中文文档-数据模型(PyTorch)

    (三)Facebook:BigGraph 中文文档-从实体嵌入到边分值(PyTorch)

    (四)Facebook:BigGraph 中文文档-I/O格式化(PyTorch)

    (五)Facebook:BigGraph 中文文档-批预处理

    源链接:Batch Preparation - 批预处理

    https://torchbiggraph.readthedocs.io/en/latest/batch_preparation.html


    本节介绍了每一批次数据在损失的计算和优化前是如何准备和组织的。

    训练通过循环嵌套来迭代处理边。扫描从外层到内层叫代(时期),代际间是相互独立并且过程基本一致,这样的目的是重复内部循环直到收敛。每代迭代会访问到所有的边,epochs的数目在num_epochs配置参数中指定。

    译者注:

    (1)batch: 1个batch代表深度学习算法一次参数的更新,所需要损失函数并不是由一个数据获得的,而是由一组数据加权得到的,这一组数据的数量叫batchsize;

    (2)iteration:1个iteration等于使用batchsize个样本训练一次;

    (3)epoch:1个epoch等于使用训练集中的全部样本训练一次,通俗的讲epoch的值num_epoch就是整个数据集被轮几次。

    当迭代一个边集合时,每个分桶首先会被分割为大小相等的块:每个块由连续间隔的边构成(和存储在文件中的顺序一致),块的数量可以通过设置num_edge_chunks来调整。训练从所有桶的第一个块开始,然后第二个,以此类推。

    然后算法开始迭代桶,训练桶的顺序依赖于配置文件中bucket_order这个配置项。除了随机排列之外,有一些方法用于尝试将训连续的桶之间共享一个分区:这让分区能够被重用,从而允许可以允许参数存储在内存中而不是先注销然后被另一个桶加载到自己的空间中(在分布式模式下,不同的训练器进程同时在桶上运行,因此迭代的管理方式不同)。

    当训练器被固定了一个确定的桶和一个指定的快,边会最终磁盘上加载起来。当在训练中评估的时候,这些边的一个子集被保留(这个子集对所有的代都是一样的)。被保留的这些边会被均匀打散然后分为相等的部分。为了让训练过程中可以训练过程可以在同一时间并行进行,打散后的分片会放到一个分布式的处理池中处理Processes。这些子流程相互间不同步他们的计算或内存,我们叫 “Hogwild”  worker,这些节点worker的数据量通过workers参数来控制。

    每个worker上训练边集合的方式取决于动态关系是否被用了。最简单的情况是边被分割到连续的batches(每个batch都和batch_size中配置指定的大小一样,除了最后一个可以略小一点),这样便可以对样本一批接一批顺序训练。

    当动态关系没有被使用,也就是说损失的计算只能对一个边的集合中所有具有相同类型的边计算。因此,worker首先随机一个关系类型,选取的数量应该和样本池中同类型边的概率占比一致。然后采用手个batch_size大小的同类关系(如果剩下的样本不够),在训练池中删除掉这些样本并开始训练。

    相关文章

      网友评论

        本文标题:Facebook:BigGraph 中文文档-批预处理(PyTo

        本文链接:https://www.haomeiwen.com/subject/nqgrectx.html