01 爬百度指数很容易?不要想的太天真
百度指数,关键词:奇葩说有一个人在网上的帖子是这么开头的:
来源:https://github.com/TTyb/Baiduindex如果,看了标题,你真的以为只用美图秀秀,就能搞定百度指数,那你真的太天真了嘛。
但是,话说回来,其实原理都是差不多。
归根到底,就让机器一眼认出,图片上的那个日期,那个指数啊。
想想美图秀秀,不也是自动识别你的脸,
然后磨皮、美白、瘦脸、高光、
最后让自己变成,前男友看了都后悔和你分手的,美丽小仙女嘛。
02 百度指数爬虫的主要几个步骤
一开始,用selenium自动进入百度的页面的步骤,就不说了,网上有很多参考的。
但是到了真正的指数页面,就感觉百度真的暗搓搓的、偷偷地、挖了有好多,好多的大坑坑。
比如:我前脚刚能运行的xpath,居然后一分钟就又变了。
又比如:那个css的 element 找来找去找不到,明明人家都是这样做的呀。
再比如:为什么人家的code可以,我照搬老是给我报错,我的code明明是对的嘛。
在咨询了很多吃前端这碗饭的人后,人家说,
百度一直改element,又是动态JS,
这次你code弄对了,下次人家baidu一调,你又得跟着调。
怎么办,
臣妾做不到啊,爬他好难哦!
百度,你非不让我爬,算了,那我就不爬了。
谁要用的你element,我直接截取你整张图!
【 “呐,做人呢,最重要的就是开开心心”】
03 故事的最后,就是发挥美图秀秀的磨皮功能了
下载了一些图片识别package(不要激动,怎么可能那么简单用美图秀秀呢)
(没有用tensorflow,因为baidu的图片这么难看,用基础一点的图片识别工具就可以了)
然后整张图,就从A美图秀秀到了B,最后变成了taobao卖家20块钱的Excel表。
是不是听起来很容易啊?
嗯,其实最关键的就是要让机器认出这个日期和指数,嗯,很有道理。
[ “呐,做人呢,最重要的就是开开心心”]
如果我的文章能带给你一点点启发,还请动动你的手指,点赞、收藏、关注吧!
你的点赞和关注,是我一直写下去的动力!
如果你还想看我的其他文章,请戳
八分钟就看懂 | 推荐系统 (协同过滤) 原来这么简单
你被广告盯住了吗?广告的渠道和频度
先别急着分析竞争格局,谁是你的竞争对手还没弄明白呢
从做蛋糕到多重共线性(Multicollinearity)
消费者、用户和产品的关系思考
结合日常生活的例子,了解什么是卡方检验
一步一步教你分析消费者大数据
从优惠券的投放人群,教你看分类模型的评判标准
数据分析师,少一点套路,多一点思路
关于数据建模变量标准化,你想知道的都在这里了
运营经理,你真的知道模型里的R平方吗?
从可视化角度浅谈如何做一份优秀的咨询PPT(一)
用可视化思维解读统计自由度
孰好孰坏?第一方数据与第三方数据
读完这篇,连小学生都看的懂什么是机器学习里的boosting
教你炼就火眼金睛,识别会说谎的数据分析
网友评论