美文网首页
无聊时候的产物2--Weibo爬虫…

无聊时候的产物2--Weibo爬虫…

作者: 恁都靠边 | 来源:发表于2017-05-25 22:38 被阅读0次

前两周闲来无事,哦……也不是闲来无事,有事做的。有论文要读的,但是精神已经处于除了科研其他都想搞的状态,就把老早之前想练练手的爬虫项目拿出来琢磨琢磨。你说不误正业么?也不是啊,至少我是在学编程,码代码,大数据不爬拿来的数据?但是对于爬虫这个东西,我觉得搞搞就可以了,不用更深入研究,毕竟成熟的框架和语言在那里,直接改为自己的参数,然后调用,花点时间学习使用 就能学会的,所以我就一直没花时间学习……
 之前看过很多网上的文章介绍爬虫以及实战项目,但是觉得爬的内容不喜欢,不喜欢爬漂亮妹子的图,不喜欢爬淘宝图片,也不喜欢爬今日头条,所以就一直搁着没管。前些天看到有爬微博及其对应评论的介绍,这个还要点兴趣,毕竟微博也是我比较多接触的APP,而且有想看的人和内容。所以就留意了下,并且集合百家之言,并且自己加了点东西,当然还是有不完美的地方,比如说不能爬图片,表情等。(但是这个可以通过访问wap格式 的网站爬取到,我闲费事,不想弄了)
 =========================================
  前面是废话,下面是正经的
  这个脚本的功能主要有两个,
  1. 爬取某个特定用户的微博信息,包括粉丝数,关注数,发微博的渠道,以及所发过的微博历史及其每一条微博下的评论用户,评论内容,评论渠道等等;这个功能是免登陆实现的,但是需要提供要爬取对象的 uid号。
  2. 自动对某个用户的N条微博发表M条评论,N,M 都自定义,类似于水军刷评论的感觉………对,没错,就是那个。但是这个是要用自己的account账户登录的,而且小心一点,评论太多,微博会检测出你异常的,然后会封账号或者ip之类的。第一点爬内容的时候也是,爬取的次数太多,间隔太少,也会被封,貌似微博的反爬虫还是很不错的。所以,要想不被发现,相邻两次评论和爬取都要间隔一些时间,sleep一会。
下面放个图:

看圈圈里面的

原谅自己太懒了,真的,今天真的没有做好写总结的状态~~

这是程序里的设置

设置的是每个评论之间间隔60s,可以看到评论时间大概就是一分钟左右的间隔。
啊,好累啊。我发现要从头开始结束爬取的流程和方法要好多啊,突然就不想写了,……想弃坑了~~
想起来再更吧,我要会宿舍了。应该会传到github上吧。
路上爪机码字感悟,

从自己的这幅懒得多写的德行突然感觉,网上细心分享自己心得和经验的人真的都好不容易啊,没他们的分享怎么有我们这些人的学习借鉴和少踩雷区呢!我果然还是差太远了, 无聊时候的产物2--Weibo爬虫…

我肯定没有成为知名博主的天分,!
不要脸的是不是可以求打赏,

相关文章

  • 无聊时候的产物2--Weibo爬虫…

    前两周闲来无事,哦……也不是闲来无事,有事做的。有论文要读的,但是精神已经处于除了科研其他都想搞的状态,就把老早之...

  • 无聊产物

    好无聊哦 我作业好多哦 就是不想更文嘛

  • 无聊的产物

    不想学习的时候真的好无聊啊,好想有个男朋友╮(╯_╰)╭

  • 无聊的产物

    诗 是无聊的产物 无聊的人 看无聊的事 想无聊的道理 写无聊的话 而有些人则更无聊了 没看 没想 凭空捏造一堆 让...

  • 自己无聊的产物

    画完 也不知道自己画的是什么 就是想画画 现在在学习 第二张奶奶说是梅花 我也不知道是啥 其实我想说 自己想画就...

  • 无聊时的产物

    时间在生命里一点一点慢慢的流失,而我们却无法阻止。一天一天的过去,宣告着生命的消逝。有时候觉得人为什么要生活在这尘...

  • 病毒太厉害 无聊在家的产物

    这几天病毒搞得人心惶惶 我在家都快闲的长毛了 终于体会到了能正常上班和休息的日子是多么充实 虽然累 至少人还是自由...

  • 无聊的时候

    有些时间是无聊的 的找点事情干

  • 无聊的时候

    如果你觉得很无聊,那么这时候最好的处理方式是静静地待着。

  • 无聊的时候

    如果无聊,那就写写东西吧。

网友评论

      本文标题:无聊时候的产物2--Weibo爬虫…

      本文链接:https://www.haomeiwen.com/subject/gcozxxtx.html