造数 - 新一代智能数据采集,今天给大家一个完整的数据处理工具链
** 数据采集,当然要全套! 不光要采得好,也要能一溜烟的顺带完成场景化、数据可视化。**
还要方便上传下载到处传播有没有!
数据采集: 造数
数据可视化: BDP (造数可以无缝接入)
作为数据爱好者,可以说我们一直痴迷各处采集数据自己分析 已经很久,深感一个好的通用爬虫可以极大的提升幸福指数。使用产品请戳下面:
下面讲几个数据采集的故事,让大家发现数据采集带来的全新视野。
【看房价变化】
最近痴迷于品尝手搓牛肉的老王听说新政策下来,成交量萎缩,房价有所下跌,深感吃了这么多手搓牛肉终于可能有能力买一套房子。
可是感觉很多人只是在网上胡说八道,并没有一点数据支持啊!
最近关于房价涨跌众说纷纭,究竟房价是涨是跌,能不能从各大相对靠谱的网站采集自己要的数据,每天给自已一份简报呢?
操作流程
找到 北京二手房 成交查询 ,把网址粘好,贴到造数上,开始爬取任务。
就爬取50页好了
定个时,每天8点爬一遍,把结果发到邮箱
三步获取每日房价数据
【数据积累起来效果显著】
数据日积月累可以逐渐做出自己的数据轨迹。
可以看到一线城市成交套数平均同比明显是下降周期。
二手房成交套数 8 周移动平均同比增速
看来青岛的房子环比增速排名非常靠前,估计大家喜欢买了顺便吃 38 一只的大虾。
江门的房屋成交下降的比较异常,可以瞄一眼。
喵~
二手房本周成交套数环比增速
【寻找好吃的店铺】
住在城东的老候想用数据自己找找好吃的饭店,跟一跟评论,琢磨怎么把自己的饭店开好,看看大家都对饭店有什么意见。
在大众点评上有很多商家信息,想看看上海有哪些不错的火锅店,使用造数采集人气最高的100家店铺 上海火锅美食-大众点评网
和爬取链家网一样,选择元素,设置翻页规则,爬取前10页数据
https://www.dianping.com/search/category/1/10/g110o2p{{1-10}}
并启用深度爬取,获得更加详细的店铺信息
地址、电话、推荐菜和评论全部抓到手。接下来就是对数据的分析了
将这些数据导入BDP,看看会有哪些有趣的结论
根据点评数量的排名
店铺名的词云
鉴于上上谦火锅如此火爆,我们把评论拿去分析
情感分析
【舆情监控】
很多人喜欢刷剧,不过如果能用数据看剧就好了
爱好写程序的老徐每天都要花很多时间在他热爱的代码事业中,但是同时他也想每天知道什么视频播放量在悄悄上涨,什么样的新闻点击量在上扬。对于自己的爬虫课程,他也想关注每天某些时段的播放量等等数据,更进一步的,他想知道增量如何,做一个模型。
对电视剧播放量的采集,设置定时执行,拿到数据
维护好自己的数据,大家也可以有自己的搜索词排行榜:
【市场线索】
热爱给邻居村庄修路的老王,以前总是从老李那里问询原材料费用,最近他发现用 造数可以解决问题,他采集了很多水泥信息:
数据交叉起来,发现更多有意思的关联性:
有的有明显正相关,有的只是正好撞上,但是我们知道:
自从数据可以定时采集,不用再费力的复制粘贴,
老王已经在数据探索的路上停不下来了。
【结语】
没时间解释了,快上车!
造数 - 就是这么好用的爬虫工具
(如果你自己也想写一个,我有一篇文章写了雏形的架构加了雏形的代码)
网友评论