Python爬虫从入门到出轨

作者: c37d344afd22 | 来源:发表于2017-01-12 16:39 被阅读1569次

好久都没写文章了, 搞Android搞得脑袋大,换换心情。俗话说的好,每年学一种新的编程语言,学习它的语法也有利于你主力语言的学习(这谁说的?)

其实我觉得学习一门新的语言无非就是想做些什么事情,也就是兴趣所在

提到爬虫,肯定第一个想到的语言就是Python,当然了我也不例外。果断买了两本书(这个毛病从哪来的(╯‵□′)╯︵┻━┻),由于有其他语言的基础,学起来也不是很费力(当然生成器什么鬼的还是没有理解),了解了一些常用的库和语法之后就开始了爬虫之旅

闲话不多扯,说说我爬的数据吧

  1. 糗百(新手必经之路)
  2. 豆瓣电影TOP250(必经之路)
  3. 黑丝吧(🙈)
  4. 你的名字(壁纸)
  5. 本人公司后台统计的所有用户(不会被起诉吧 23333)

用到的库:

  • requests
  • BeautifulSoup

糗百的代码不知道放在哪找不到了,就看看豆瓣的吧

三十多行代码就可以把豆瓣电影TOP250给爬下来,当然这里用到了各种库,不然写起来也比较麻烦。

分析一下豆瓣电影TOP250的网站,发现规律后就可以写代码了。直接递归getMovie()方法就可以获取所有的数据了。

公司用户的信息

弄公司用户信息的话就要模拟登陆,登陆成功之后可以去获取信息,并且用的都是POST,这个时候就需要抓包了。由于本人是Mac用户,所以抓包工具用的是Charles,每次免费30分钟,感觉还是很友好的。

模拟登陆就要用到cookie之类的东西了,本人对这方面研究还不是很深。而恰巧requests有这个功能s = requests.Session(),后面就用s来进行GET/POST请求就好了,Cookie之类的就都不用操心啦

你们都想看的来了

啊,写这个的时候只是出于无聊,想着给群友们发福利。然后就写了一个这个爬黑丝吧。但是有一个缺陷就是没有只看楼主,所以别人顶楼发的图片也都下载下来了。这里我设置了只爬回帖数在200-100000之间的帖子,只爬取第一页的。如果各位有兴/性趣的话可以下载一下代码看看咯

最后送上代码地址

另外有搞前端的小伙伴们推荐一下我朋友的公众号,分享的都是干货,二维码在这里

公众号.jpg

最后

爱生活,爱小丽

相关文章

网友评论

本文标题:Python爬虫从入门到出轨

本文链接:https://www.haomeiwen.com/subject/lvodbttx.html