用Node.js实现一个DHT网络爬虫，一步一步完成一个BT搜索

作者: 我欲乘风去 | 来源:发表于2016-06-18 23:18 被阅读3245次

用Node.js实现一个DHT网络爬虫，一步一步完成一个BT搜索
BitTorrent DHT 协议中文翻译
用node.js创建一个cli（命令行接口）
Node.js Request+Cheerio实现一个小爬虫-基
Node.js Request+Cheerio实现一个小爬虫-番
Node.js Request+Cheerio实现一个小爬虫-基
Node.js Request+Cheerio实现一个小爬虫-基
Node.js 收发比特币的中文教程之一：创建一个Mixin
rtorrent
用Java实现网络爬虫一之项目介绍

传统的Bittorrent服务

传统的BT服务是由两部份组成的，tracker服务和p2p服务，通过前者用户可以知道谁拥有资源，后者是通过前者向拥有资源的用户发起下载。

Trackerless

目前在大多数国家，提供tracker服务都是非法的。最终有一天tracker服务会像edonkey的服务一样消失。trackerless的需求于是变得迫切起来。

DHT网络

DHT网络就是解决trackerless目前运用最广的方案，核心算法叫Kademlia，也就是所谓的异或算法。在Bittorrent中它叫DHT，在edonkey中它叫Kad，两者算法是一至的，但细节不同，前者更注重文件传输，后者更在意文件分享。

什么是NodeID和InfoHash

在DHT网络中，所有的用户和资源都有一个20bytes的ID，用户叫NodeID,资源叫InfoHash。NodeID通常是根据用户的IP端口计算得出的（但在DHT爬虫中可以随机获取一个20bytes的串，无关紧要），InfoHash是根据torrent种子文件的info字段，用hash sha1计算得出的。在DHT协议中，

NodeID可以通过以下代码简单的得到

const nodeID = crypto.createHash('sha1').update(Math.random()*100000).digest()

通过种子文件计算得到InfoHash的代码

const infoHash = crypto.createHash('sha1').update(bencode.decode('file.torrent').info).digest()

得到可传播的magnet链接就简单了

const magnet = `magnet:?xt=urn:btih:${infoHash.toString('hex').toUpperCase()}`

可见DHT网络中用户，资源都是无区别的，所以就有了xor算法之说。NodeID之间可以用异或计算出距离，NodeID和InfoHash之间同样可以计算距离，InfoHash之间也可以计算距离。计算方法很简单，把infoHash或NodeID换为数值，然后按位异或，就得到了距离。这很关键，在下面的Routing table中会运用到。异或算法得到的距离的结果虽然不是物理上的距离关系，但是在数学逻辑上是自洽的。

DHT协议

共4条

ping

find_node

get_peers (在edonkey kad中这叫find_value)

announce_peer

ping

是用检查Node状态，用以更新Routing table

find_node

通常是用来初始化Routing table，因为一开始，你在Routing table是空的，需要通过向公共节点发送find_node来填充之。

get_peers

是当用户要下载种子资源时向其它Node发起的。如果Node有该资源，则返回资源的下载端口以供对方下载，如果没有，则根据异或算法在自己的Routing table中寻找离资源最近的Node返回给对方，对方如此递归发送get_peers，直到找到资源为止。

announce_peer

当用用户下载完种子资源，通过种子开始下载时（这里下载行为通常会回倒为tracker式下载，但也有有种子文件是有Nodes字段的，可以通过纯p2p下载）通知所有曾经get_peers咨询过的node。announce_peer是爬虫的关键，当下载开始，用户就会通知，于是就得到了一个有效的InfoHash。

Routing table

每个Node都要维护一个Routing table以存放Node信息。 Routing table的容器为桶，称为K桶，桶的容量为8（kad中为20）。桶的数量是可以增加的，当桶的个数超过8时，桶就会平均的分裂。桶中的保存的就是Node信息，包含NodeID、IP和端口。当Node接受到任意一条协议时，都会试图向Routing table中插入对方的NodeID，插入Rule如下:

通过异或算法计算距离，应该往哪个桶插入。

如果这个桶是不满的，则插入成功。

如果这个桶是满的，并且这个桶中不包含自己，则插入失败。反之则分裂这个桶，并且递归的再尝试插入。

理解Routing table是DHT爬虫的关键，可以参考协议文档，实现的网站看这里Engiy磁力搜索，BT搜索

爬虫的关键

通过上述基础知识，可以得到以下结论：

尽量认识更多的Node，这点可以通过find_node来实现。

尽量让自己插入到对方的Routing table中，只有这样，当对方下载资源时才会优先通知你。

插入对方的Routing table成功的关键在于自己的NodeID离对方的NodeID足够的近。

爬虫只无需现实所有的协议，只需要实现find_node(query),get_peers(response),announce_peer(response),ping(response)。

Engiy的开源简化Node.js版DHTSpider可以参考，有疑问可以github上给我留言。

网友评论

07c745847588:做了个电影下载站，想用这个实现种子库，现在问题是，不知道怎么根据获取到的磁力链接再去获取影片信息，比如片名，麻烦看到解答下，谢谢
zhaohehe:请问有了infohash之后怎么去获取到文件的名称等信息呢？
loopq:@zhaohehe 不知道你现在还需不需要。我说一下，可以去第三方的托管种子平台去下载种子，然后进行解析种子获得信息。这种的好处在于省事，弊端在于依靠第三方（第三方的东西总是不稳定的），还有一种就是自己下载metadata信息，具体可以上百度或者github上搜一下老奶奶这个id，他写的dht爬虫实现了这个 --完
老了後知後覺:这些我都不懂，看看好像很好玩的样子

本文标题：用Node.js实现一个DHT网络爬虫，一步一步完成一个BT搜索

本文链接：https://www.haomeiwen.com/subject/nooqrttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！