美文网首页@IT·互联网大数据 爬虫Python AI Sql程序员
爬虫数据分析群里上周都聊了些什么?

爬虫数据分析群里上周都聊了些什么?

作者: 向右奔跑 | 来源:发表于2017-01-15 10:17 被阅读779次

    上周我把简书上写Python爬虫、数据分析的文章的作者聚集在一起,详见文章《来简书,看看数据分析多有趣》,看看他们在群里都聊了些啥。


    1. 如何防止爬虫被Ban

    @向右奔跑:昨天在lagou爬数据时被Ban,设置了浏览器请求头,有什么好办法?

    @博客虫大数据:之前爬京东的,没有频率限制。

    @LEONYao:用scrapy 爬,加个随机请求头基本不会被ban

    @向右奔跑:我用的scrapy ,伪装了请求头

    @博客虫大数据:如果做IP频率限制 伪装请求头 没什么用

    @LEONYao:我这有好多个爬虫在同时运行,都爬了好多天了,没事。
    只是多个请求头,我有用过代理ip 池,速度不稳定,就没再用了

    @博客虫大数据:代理的IP,很多都上了黑名单。
    难找到 好的 都是被用烂的了

    @LEONYao:买了个scrapy cloud 的代理,很贵,用起来也慢

    @向右奔跑:明白,今天准备试代理IP, 后来设了下载延迟设成1秒就好了


    2. 大数据交流分享准备

    @博客虫大数据:群里有多少 是搞大数据的 可以深入交流一下 哈哈

    @向右奔跑:之前看过一段时间,没有搞过

    @博客虫大数据:其实我感觉 爬虫应该也算大数据的一环 哈哈,数据源侧重要的一环,处于大数据链路的最前端。

    @向右奔跑:没有找到具体应用场景,自己很难搞下去

    @博客虫大数据http://www.mite8.com 这个网站,所有流程,从爬取 到最终的可视化 都是自己折腾出来的。

    @向右奔跑:太棒了
    能不能搞一个专题分享

    @博客虫大数据:近期 自己业余时间 在爬虫和数据可视化这块 搞的比较多。

    @博客虫大数据:怎么搞

    @向右奔跑:就从介绍你这个网站开始,你是怎么折腾的

    @博客虫大数据:可以呀 有时间梳理一下

    @LEONYao:太吊了这个
    大神快分享教程啊

    @程鑫垚:看着就很棒 膜拜


    3. 用户画像和分词的方法

    @龙潇
    问个问题,爬取了大量产品经理的招聘要求,如何进行数据分析呢?
    我想到的一个办法是自己先看十几条,找出一些关键词来,然后去看这些关键词在这里面出现的频率是多少

    @向右奔跑:先要一定的词库,可以是自己熟悉的。也可以直接分词后统计高频词

    @龙潇:分词你是自己写代码分词还是借助第三方工具?

    @向右奔跑:代码调用分词工具或API

    @强尼:可以这样,你可以先爬取好词,如果你有nlp,过一遍NLP,给打标签,然后聚类分析一下就好了

    比如,简书编辑需要会打篮球的人; 标签:篮球简书编辑的人,需要来自于NBA的职业球队,并且必须是球员; 标签:篮球

    @罗攀:很厉害~@强尼 有python的jieba库可以么

    @向右奔跑:可以,jieba分词不足的是词库不太行,新词、专业词上差一点


    4. 密文的爬取解析

    @LEONYao:帮看看这种数据怎么爬

    @向右奔跑:亿 字也是显示出来的吗
    奇怪,没有遇到过

    @LEONYao:我百度了一下,得到了一些思路
    https://jizhi.im/blog/post/maoyan-anti-crawler
    是密文

    @LEONYao
    这篇教程里。。写个爬虫都用上了机器学习了

    @Jaquez
    这个网站还挺有意思的

    @张宏伦:美团的数字是图片加偏移……

    @志明:对 要熟悉各种反爬虫


    5. Ajax数据构造URL爬取

    @翁永鑫:请问有哪位爬过这种网页吗?https://www.kuaidi100.com/courier/?searchText=金蝶大厦

    @翁永鑫:这个是关键的数据编码

    @LEONYao:但碰巧我在源码里找到了电话号码

    @翁永鑫:有了编码可以构造这个url,这个是数据所在

    @LEONYao:那你构造URL吧

    @罗攀:异步加载就是找包

    @LEONYao:有手机端的话可以尝试下
    爬手机端比爬pc 容易


    本周推荐文章

    相关文章

      网友评论

        本文标题:爬虫数据分析群里上周都聊了些什么?

        本文链接:https://www.haomeiwen.com/subject/kcyybttx.html