Python爬虫从入门到出轨

作者: c37d344afd22 | 来源:发表于2017-01-12 16:39 被阅读1569次

    好久都没写文章了, 搞Android搞得脑袋大,换换心情。俗话说的好,每年学一种新的编程语言,学习它的语法也有利于你主力语言的学习(这谁说的?)

    其实我觉得学习一门新的语言无非就是想做些什么事情,也就是兴趣所在

    提到爬虫,肯定第一个想到的语言就是Python,当然了我也不例外。果断买了两本书(这个毛病从哪来的(╯‵□′)╯︵┻━┻),由于有其他语言的基础,学起来也不是很费力(当然生成器什么鬼的还是没有理解),了解了一些常用的库和语法之后就开始了爬虫之旅

    闲话不多扯,说说我爬的数据吧

    1. 糗百(新手必经之路)
    2. 豆瓣电影TOP250(必经之路)
    3. 黑丝吧(🙈)
    4. 你的名字(壁纸)
    5. 本人公司后台统计的所有用户(不会被起诉吧 23333)

    用到的库:

    • requests
    • BeautifulSoup

    糗百的代码不知道放在哪找不到了,就看看豆瓣的吧

    三十多行代码就可以把豆瓣电影TOP250给爬下来,当然这里用到了各种库,不然写起来也比较麻烦。

    分析一下豆瓣电影TOP250的网站,发现规律后就可以写代码了。直接递归getMovie()方法就可以获取所有的数据了。

    公司用户的信息

    弄公司用户信息的话就要模拟登陆,登陆成功之后可以去获取信息,并且用的都是POST,这个时候就需要抓包了。由于本人是Mac用户,所以抓包工具用的是Charles,每次免费30分钟,感觉还是很友好的。

    模拟登陆就要用到cookie之类的东西了,本人对这方面研究还不是很深。而恰巧requests有这个功能s = requests.Session(),后面就用s来进行GET/POST请求就好了,Cookie之类的就都不用操心啦

    你们都想看的来了

    啊,写这个的时候只是出于无聊,想着给群友们发福利。然后就写了一个这个爬黑丝吧。但是有一个缺陷就是没有只看楼主,所以别人顶楼发的图片也都下载下来了。这里我设置了只爬回帖数在200-100000之间的帖子,只爬取第一页的。如果各位有兴/性趣的话可以下载一下代码看看咯

    最后送上代码地址

    另外有搞前端的小伙伴们推荐一下我朋友的公众号,分享的都是干货,二维码在这里

    公众号.jpg

    最后

    爱生活,爱小丽

    相关文章

      网友评论

      本文标题:Python爬虫从入门到出轨

      本文链接:https://www.haomeiwen.com/subject/lvodbttx.html