美文网首页
python简易爬虫(1)--常用工具

python简易爬虫(1)--常用工具

作者: troy_ld | 来源:发表于2016-07-07 10:02 被阅读113次

最近迷上看小说,网上免费的可以一页一页翻,但是看久了就嫌麻烦,还是希望离线到本地查看。利用python(threading, Queue, urllib2, regex)做了一个简易的爬虫,思路如下。

--threading,实现多线程

--Queue, 实现子线程与主线程通讯,inque负责输入url,outque负责输出任务日志

--urllib2实现下载功能

--regex负责解析,请测提取条目少的话正则的效率优势很明显,现在很多html标签带有特殊属性,便于定位

--另外,如有需要,可自行补充url提取,模拟登录等模块

附上github链接

[novel_spider](https://github.com/dingld/novel_spider.git)

相关文章

网友评论

      本文标题:python简易爬虫(1)--常用工具

      本文链接:https://www.haomeiwen.com/subject/pfkrlttx.html