美文网首页
惊了! 淘宝卖20块的百度指数, 美图秀秀就能搞定?!

惊了! 淘宝卖20块的百度指数, 美图秀秀就能搞定?!

作者: Yan文怡 | 来源:发表于2018-11-16 13:58 被阅读0次

    01 爬百度指数很容易?不要想的太天真

    百度指数,关键词:奇葩说

    有一个人在网上的帖子是这么开头的:

    来源:https://github.com/TTyb/Baiduindex

    如果,看了标题,你真的以为只用美图秀秀,就能搞定百度指数,那你真的太天真了嘛。

    但是,话说回来,其实原理都是差不多。
    归根到底,就让机器一眼认出,图片上的那个日期,那个指数啊。

    想想美图秀秀,不也是自动识别你的脸,
    然后磨皮、美白、瘦脸、高光、
    最后让自己变成,前男友看了都后悔和你分手的,美丽小仙女嘛。

    02 百度指数爬虫的主要几个步骤

    一开始,用selenium自动进入百度的页面的步骤,就不说了,网上有很多参考的。

    但是到了真正的指数页面,就感觉百度真的暗搓搓的、偷偷地、挖了有好多,好多的大坑坑。

    比如:我前脚刚能运行的xpath,居然后一分钟就又变了。

    又比如:那个css的 element 找来找去找不到,明明人家都是这样做的呀。

    再比如:为什么人家的code可以,我照搬老是给我报错,我的code明明是对的嘛。

    在咨询了很多吃前端这碗饭的人后,人家说,
    百度一直改element,又是动态JS,
    这次你code弄对了,下次人家baidu一调,你又得跟着调。

    【你想一劳永逸啊?自动爬虫是不可能的,这辈子,百度都不会让你自动爬虫的】

    怎么办,
    臣妾做不到啊,爬他好难哦!

    百度,你非不让我爬,算了,那我就不爬了。
    谁要用的你element,我直接截取你整张图!
    【 “呐,做人呢,最重要的就是开开心心”】

    03 故事的最后,就是发挥美图秀秀的磨皮功能了

    下载了一些图片识别package(不要激动,怎么可能那么简单用美图秀秀呢)

    (没有用tensorflow,因为baidu的图片这么难看,用基础一点的图片识别工具就可以了)

    然后整张图,就从A美图秀秀到了B,最后变成了taobao卖家20块钱的Excel表。

    是不是听起来很容易啊?
    嗯,其实最关键的就是要让机器认出这个日期和指数,嗯,很有道理。
    [ “呐,做人呢,最重要的就是开开心心”]

    如果我的文章能带给你一点点启发,还请动动你的手指,点赞、收藏、关注吧!
    你的点赞和关注,是我一直写下去的动力!
    如果你还想看我的其他文章,请戳

    八分钟就看懂 | 推荐系统 (协同过滤) 原来这么简单
    你被广告盯住了吗?广告的渠道和频度
    先别急着分析竞争格局,谁是你的竞争对手还没弄明白呢
    从做蛋糕到多重共线性(Multicollinearity)
    消费者、用户和产品的关系思考
    结合日常生活的例子,了解什么是卡方检验
    一步一步教你分析消费者大数据
    从优惠券的投放人群,教你看分类模型的评判标准
    数据分析师,少一点套路,多一点思路
    关于数据建模变量标准化,你想知道的都在这里了
    运营经理,你真的知道模型里的R平方吗?
    从可视化角度浅谈如何做一份优秀的咨询PPT(一)
    用可视化思维解读统计自由度
    孰好孰坏?第一方数据与第三方数据
    读完这篇,连小学生都看的懂什么是机器学习里的boosting
    教你炼就火眼金睛,识别会说谎的数据分析

    相关文章

      网友评论

          本文标题:惊了! 淘宝卖20块的百度指数, 美图秀秀就能搞定?!

          本文链接:https://www.haomeiwen.com/subject/yrhmfqtx.html