美文网首页我爱编程
python:从爬虫说起(一)

python:从爬虫说起(一)

作者: 汰淘气 | 来源:发表于2018-04-14 10:32 被阅读0次

胡说8道的声明:博客相关内容都是个人学习的理解,如果把读者带偏了,当笔者瞎78扯

引言

     如果想入门学一门语言,我觉得python合适,python语法简单,容易上手。如果有一定语言基础的话,基本2个小时能学完python基本语法和常用内建库。

    然后能干什么呢,写一些if else玩么....额,貌似什么都干不了。就好比你学会了汽车原理,你就能策马奔腾么。大兄弟,你想太多。首先买个车吧(引入三方库或者框架),然后学个驾校吧(学习三方库使用),然后练习练习再飞翔。

    so,python各种三方库和框架才是应用的关键。为啥从爬虫说起呢,因为爬虫简单,只需要用到urllib(python3将urllib和urllib2整合到urllib里面了),beautifulsoup两个库基本就能纵横捭阖了。要是懂xpath或者css选择器,一些js语法,那记本就任你遨游了。再来加入点数据库(典型的,SQL:mysql;NoSQL:mongoDB),那还不得上天。

    好吧,先区学python基本语法,再看看urllib咋写爬虫的,然后开始你的表演。

爬虫原理

    我们在浏览网页的时候,有大量的信息和资讯,他们是如何呈现给我们的呢?我们用浏览器去查看网页的时候,实际就是浏览器对网页的网站服务器发起了一个request请求(通常method是Get或者Post),然后网站服务器(这时候web服务器捕获到这个请求,然后由web路由返回网页信息)返回一个response,response中就包含了网页信息(html)。分析分析这个html(就像 杨宗纬唱的洋葱,一层一层一层的剥开它的皮),你会发现网页的各种文字,图片链接,包括广告信息都在html安静的躺着。

    ok,处理这个response,定位需要的元素,将信息提取出来,这就是爬虫。

    爬虫牛逼的地方在于自动化在跑,你想想,找到一个不可描述的网站,写个爬虫,吃个饭回来一看,硬盘里就爬取了大量不可描述的图片,刺不刺激,想不想学。

    当然上一段都是开玩笑的,比较我们爬图片是用于YCbCr颜色空间分析,判断这些图片是否不符合社会主义核心简直观,然后坚决举报。好吧,编不下去了....

    以上,扯远了。

scrapy爬腾讯视频

    为什么不直接用urllib写爬虫而要用scrapy呢,很简单啊,地上一把M4,一把喷子,就问你选啥....好吧,说白了就是觉得scrapy代码架构清晰,开起来比较优雅。

    为什么爬腾讯视频呢,因为腾讯视频需要去分析动态页面,还需要去分析视频真实url(腾讯是不会把视频url直接暴露给大家的,各种反爬加密),难度比较大,爬虫代码比较简单,必须增加难度,得装一波。

    写累了,下一篇开始码代码和分析(其实是笔者还没分析出腾讯视频获取真实url的请求的规则,万事开头难嘛,先开个头)

相关文章

网友评论

    本文标题:python:从爬虫说起(一)

    本文链接:https://www.haomeiwen.com/subject/pzrzhftx.html