好久都没写文章了, 搞Android搞得脑袋大,换换心情。俗话说的好,每年学一种新的编程语言,学习它的语法也有利于你主力语言的学习(这谁说的?)
其实我觉得学习一门新的语言无非就是想做些什么事情,也就是兴趣所在
提到爬虫,肯定第一个想到的语言就是Python,当然了我也不例外。果断买了两本书(这个毛病从哪来的(╯‵□′)╯︵┻━┻),由于有其他语言的基础,学起来也不是很费力(当然生成器什么鬼的还是没有理解),了解了一些常用的库和语法之后就开始了爬虫之旅
闲话不多扯,说说我爬的数据吧
- 糗百(新手必经之路)
- 豆瓣电影TOP250(必经之路)
- 黑丝吧(🙈)
- 你的名字(壁纸)
- 本人公司后台统计的所有用户(不会被起诉吧 23333)
用到的库:
- requests
- BeautifulSoup
糗百的代码不知道放在哪找不到了,就看看豆瓣的吧
三十多行代码就可以把豆瓣电影TOP250给爬下来,当然这里用到了各种库,不然写起来也比较麻烦。
分析一下豆瓣电影TOP250的网站,发现规律后就可以写代码了。直接递归getMovie()方法就可以获取所有的数据了。
公司用户的信息
弄公司用户信息的话就要模拟登陆,登陆成功之后可以去获取信息,并且用的都是POST,这个时候就需要抓包了。由于本人是Mac用户,所以抓包工具用的是Charles,每次免费30分钟,感觉还是很友好的。
模拟登陆就要用到cookie之类的东西了,本人对这方面研究还不是很深。而恰巧requests有这个功能s = requests.Session()
,后面就用s来进行GET/POST请求就好了,Cookie之类的就都不用操心啦
你们都想看的来了
啊,写这个的时候只是出于无聊,想着给群友们发福利。然后就写了一个这个爬黑丝吧。但是有一个缺陷就是没有只看楼主,所以别人顶楼发的图片也都下载下来了。这里我设置了只爬回帖数在200-100000之间的帖子,只爬取第一页的。如果各位有兴/性趣的话可以下载一下代码看看咯
最后送上代码地址
另外有搞前端的小伙伴们推荐一下我朋友的公众号,分享的都是干货,二维码在这里
公众号.jpg
网友评论
另外,政府正在和各大互联网巨头协定中国xx数据安全协议法。
不久爬虫非法了~