引言

如果想入门学一门语言，我觉得python合适，python语法简单，容易上手。如果有一定语言基础的话，基本2个小时能学完python基本语法和常用内建库。

然后能干什么呢，写一些if else玩么....额，貌似什么都干不了。就好比你学会了汽车原理，你就能策马奔腾么。大兄弟，你想太多。首先买个车吧（引入三方库或者框架），然后学个驾校吧（学习三方库使用），然后练习练习再飞翔。

so，python各种三方库和框架才是应用的关键。为啥从爬虫说起呢，因为爬虫简单，只需要用到urllib(python3将urllib和urllib2整合到urllib里面了)，beautifulsoup两个库基本就能纵横捭阖了。要是懂xpath或者css选择器，一些js语法，那记本就任你遨游了。再来加入点数据库（典型的，SQL：mysql；NoSQL：mongoDB），那还不得上天。

好吧，先区学python基本语法，再看看urllib咋写爬虫的，然后开始你的表演。

爬虫原理

我们在浏览网页的时候，有大量的信息和资讯，他们是如何呈现给我们的呢？我们用浏览器去查看网页的时候，实际就是浏览器对网页的网站服务器发起了一个request请求（通常method是Get或者Post），然后网站服务器(这时候web服务器捕获到这个请求，然后由web路由返回网页信息)返回一个response，response中就包含了网页信息（html）。分析分析这个html（就像杨宗纬唱的洋葱，一层一层一层的剥开它的皮），你会发现网页的各种文字，图片链接，包括广告信息都在html安静的躺着。

ok，处理这个response，定位需要的元素，将信息提取出来，这就是爬虫。

爬虫牛逼的地方在于自动化在跑，你想想，找到一个不可描述的网站，写个爬虫，吃个饭回来一看，硬盘里就爬取了大量不可描述的图片，刺不刺激，想不想学。

当然上一段都是开玩笑的，比较我们爬图片是用于YCbCr颜色空间分析，判断这些图片是否不符合社会主义核心简直观，然后坚决举报。好吧，编不下去了....

以上，扯远了。