谈一谈爬虫

作者: stick_e665 | 来源:发表于2019-05-17 11:34 被阅读0次

谈一谈爬虫
青岛
【170115】2016年，我对爬虫的总结
2018-06-05
11.20-11.26
爬虫入门基础
01-认识爬虫
爬虫原理与数据抓取之一: 通用爬虫和聚焦爬虫
（了解）通用爬虫和聚焦爬虫--爬虫基础教程（python）（二）
Python 网络爬虫（一）

前两篇文章是帮朋友转发的，正规意义上这个是我想和大家聊的第一个技术性的东西。

那么来聊一聊爬虫吧。

爬虫这个东西很好用，可以从互联网上指定获取或者批量获取一些信息，然后我们过滤筛选下，拿到对我们有用的信息，从而减少了手工的繁琐，实现自动化。既然这个东西这么好用，肯定就有商业利益了。比如说你想要某个网站的小说，某个网站的更新的信息列表，某网站上抢购个东西，某6上刷个回家的凭证。。。

现在搜索一下，各种爬虫的工具、教程、框架，给人提供了便利，即使这样，很多内容爬起来并不是那么容易。因为很多网站并不愿意爬虫获取到，比如某音的后台（你随随便便都获取了，不就抢他饭碗了），郭嘉、甄富的信息网站（给个人提供方便的，岂能让随随便便给批量刷走了，谁知道你有什么意图啊）。。。不多说。

总之，不做防护的网站还是很多的，人家就是公布个信息，或者打个广告什么的，你方便自己用想怎么搞就怎么搞，别整成攻击型的就行，好比你爬一下度娘的内容，她毫不吝啬的就给你返回了,那么防护的都是什么东西呢？常见的不敢说，我遇到的大致就这几样，各式各样的验证码、js加密解密（包括静态和动态更新的）、ip限制、http检查(参数值、header、方式等)。

有朋友问我，我爬东西总是爬不到，我问他，你浏览器能访问到吗？他说能啊，我肯定得给他说，你浏览器能访问到，那你爬虫就能爬到，爬虫做好了和浏览器是没区别的，因为后台没法区分你是不是浏览器。。。现在爬虫的攻防战役战线已经拉的很广了，比如某6的验证码，那变态的验证码不照样没有拦住180*2么？说到这里，验证码的识别又是一门学问了，字母数字和汉字类型的，点选图片类型的，选择位置的，视图计算结果的，拖动的等等，可谓是精彩纷呈，这里暂不讨论这个，后续的可能会涉及一些这方面的探讨，我们暂就爬虫这一块继续下去。

话说，作为今天的一个展现技术实力的文章，自然少不了点干货。下面我们来看一下爬虫的流程吧。

这里我们以”北京时间“为例，比如我喜欢他们某一块的新闻专栏”快讯“，想看一看里面的标题，就走个爬虫，定时看一看。