结合个人知识与知乎相关内容(知乎下“爬虫”关键字搜索结果),部分内容为了避免版权纠纷直接引用知乎链接
下面是比较全的教程,链接后给出阅读建议
相关链接:
1. 爬虫能干什么(更多的还是为生产提供数据):
http://www.zhihu.com/question/27621722
2. 爬虫从入门到实战的教程:
https://www.zhihu.com/question/47883186/answer/110052796
3. 使用google sheet进行简单的爬取:https://www.zhihu.com/question/47883186/answer/151846965
4. web scraper教程:
https://www.zhihu.com/question/47883186/answer/155560145
5. 爬虫的背景和技术栈的介绍:https://www.zhihu.com/question/47883186/answer/151910770
6. 爬虫中的进阶技巧(缺少分布式内容):
https://www.zhihu.com/question/35461941/answer/72909421
7. 实际生产级别的python爬虫简介:
https://www.zhihu.com/question/20899988/answer/24923424
文章1:不知道爬虫是什么的可以读读,有明确目标可以略过
文章2:大而全的文章,基于python。从爬虫的简介到实战都有,计算机专业的可以直接看。
文章3:办公室文员的最佳助手。几乎没有编程的数据获取。但是缺点相当明显,难以处理复杂的情况(登陆,ajax,反扒等)。
文章4:功能强大的Chrome插件,能够满足小规模复杂数据的获取。
文章5:技术栈和教程的介绍,作为补充。
文章6:基于python处理实际生产中复杂情况,比如登陆,反爬,ajax,多进程。
文章7:用与补充实际生产中去重,分布式,存储的一些解决方案。
个人补充
除去上述内容,在文章4中提到的八抓鱼等工具也是相当强大的。在此提供类似网站神箭手的文档地址 http://docs.shenjian.io/search/index.html,有JavaScript基础的可以直接从开发文档开始。如果不是为了技术而是为了数据可以直接在此类平台上购买爬虫或者数据。
没有特别大规模的需求(百万千万条以上数据级别),单机一般就够了,栗子:在处理好反爬和性能时,1min30条。此时的解决方案一般是一个scrapy就够了。
一般的爬虫教程使用python,个人认为是因为其类库全,脚本化语言编写调试简单。此外JavaScript由于其浏览器的良好支持性和语言特性(?)也可以作为不错的爬虫语言,例如可以使用phantomjs以及各种web自动化工具获得数据,此类内容自行百度。
用ipad写的,真难用。
网友评论