美文网首页
爬虫简介以及教程

爬虫简介以及教程

作者: 刘奇_2f43 | 来源:发表于2017-10-29 06:54 被阅读0次

结合个人知识与知乎相关内容(知乎下“爬虫”关键字搜索结果),部分内容为了避免版权纠纷直接引用知乎链接

下面是比较全的教程,链接后给出阅读建议

相关链接:

1. 爬虫能干什么(更多的还是为生产提供数据):

http://www.zhihu.com/question/27621722

2. 爬虫从入门到实战的教程:

https://www.zhihu.com/question/47883186/answer/110052796

3. 使用google sheet进行简单的爬取:https://www.zhihu.com/question/47883186/answer/151846965

4. web scraper教程:

https://www.zhihu.com/question/47883186/answer/155560145

5.  爬虫的背景和技术栈的介绍:https://www.zhihu.com/question/47883186/answer/151910770

6. 爬虫中的进阶技巧(缺少分布式内容):

https://www.zhihu.com/question/35461941/answer/72909421

7. 实际生产级别的python爬虫简介:

https://www.zhihu.com/question/20899988/answer/24923424


文章1:不知道爬虫是什么的可以读读,有明确目标可以略过

文章2:大而全的文章,基于python。从爬虫的简介到实战都有,计算机专业的可以直接看。

文章3:办公室文员的最佳助手。几乎没有编程的数据获取。但是缺点相当明显,难以处理复杂的情况(登陆,ajax,反扒等)。

文章4:功能强大的Chrome插件,能够满足小规模复杂数据的获取。

文章5:技术栈和教程的介绍,作为补充。

文章6:基于python处理实际生产中复杂情况,比如登陆,反爬,ajax,多进程。

文章7:用与补充实际生产中去重,分布式,存储的一些解决方案。


个人补充

除去上述内容,在文章4中提到的八抓鱼等工具也是相当强大的。在此提供类似网站神箭手的文档地址 http://docs.shenjian.io/search/index.html,有JavaScript基础的可以直接从开发文档开始。如果不是为了技术而是为了数据可以直接在此类平台上购买爬虫或者数据。

没有特别大规模的需求(百万千万条以上数据级别),单机一般就够了,栗子:在处理好反爬和性能时,1min30条。此时的解决方案一般是一个scrapy就够了。

一般的爬虫教程使用python,个人认为是因为其类库全,脚本化语言编写调试简单。此外JavaScript由于其浏览器的良好支持性和语言特性(?)也可以作为不错的爬虫语言,例如可以使用phantomjs以及各种web自动化工具获得数据,此类内容自行百度。

用ipad写的,真难用。

相关文章

  • 爬虫简介以及教程

    结合个人知识与知乎相关内容(知乎下“爬虫”关键字搜索结果),部分内容为了避免版权纠纷直接引用知乎链接 下面是比较全...

  • 抖音爬虫教程,python爬虫采集反爬策略

    抖音爬虫教程,python爬虫采集反爬策略一、爬虫与反爬简介爬虫就是我们利用某种程序代替人工批量读取、获取网站上的...

  • python-爬虫基础(慕课网)

    二.爬虫简介以及爬虫的技术价值 2-1:爬虫是什么? 2-2:爬虫技术的价值? 三.简单爬虫架构 3-1:简单爬虫...

  • 爬虫入门教程①— 爬虫简介

    很多人都和我说过想学爬虫,但是不知道该怎么学,完全没有方向。所以这些最初萌动的想法,也随着不断遇到的问题,逐渐消失...

  • Python爬虫学习系列教程

    转自: 静觅»Python爬虫学习系列教程 Python爬虫学习系列教程 Python版本:2.7 一、爬虫入门 ...

  • 电子书单列表

    网络爬虫教程 Scarapy官方教程翻译篇 Scarapy官方教程翻译篇 Python3开发网络爬虫

  • 如何采集微信公众号文章数据?

    本文主要介绍神箭手“微信文章采集爬虫[按公众号或关键字]”(以下简称“微信文章爬虫”)的使用教程以及注意事项。 由...

  • 如何采集新浪微博数据?

    本文主要介绍神箭手“新浪微博采集爬虫”(以下简称“微博爬虫”)的使用教程以及注意事项。 新浪微博中有大量高价值的软...

  • Python爬虫教程【4】:美空网未登录图片爬取

    美空网未登录图片----简介 上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工...

  • Python爬虫入门【4】:美空网未登录图片爬取

    美空网未登录图片----简介 上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工...

网友评论

      本文标题:爬虫简介以及教程

      本文链接:https://www.haomeiwen.com/subject/chbepxtx.html