文·blogchong
缘起
早在一两个星期前,就一直在思考一个问题,那就是基于互联网开放型数据的价值挖掘,对应其具体的应用场景,以及具体的落地方式。
这一段时间一直没有停止过探索,以及寻求这个问题的答案,所以,这段时间一方面在和不同的同行们请教、交流,另一方面自己也在不停的思考这个话题。
互联网开放型数据。
所谓互联网开放型数据,即在互联网上遵循公开性准则的前提下的开放数据。
是的,遵循公开准则的数据,只要获取的方式正确,其数据的使用也是合法的。
互联网开放型数据,是一座开放的数据金山,只是鲜有人能够开采,俞或者说难以挖掘。
早在去年5月份的时候,曾在阿里研究院投稿并发表过一篇文章《DT时代变革的反思》,文中曾提到过:
前不久,有一个朋友在群里问了一个比较复杂问题,是关于数据抓取解析方面的。
可能是他问的问题太深奥,也可能是恰巧群里大牛都不在,总之就是没有人解决。
有人就问了:哥们,你研究这个这么深干吗?他回答了一句:抓取数据啊,难道你们研究处理的数据不是从网上抓取的吗?
这句话让我猛然惊醒:有人已经开始向互联网这座公共金山动手了。
十几年的底蕴,隐藏了多少数据财富?在DT时代来临的今天,必定会越来越多的人去挖掘它的价值,只不过这需要一定的技术、一定手段而已。
2015年5月的时候,可能互联网数据价值挖掘这个话题,还没有现在这么清晰。
但现在,不管大大小小的公司,都有或多或少从互联网上爬取并且利用其中的数据。
对于互联网数据的价值可利用性,这点我一直是坚信不疑的。
而不解的是是否有能够具体产业化落地的形式,而不是这种边边角角式辅助性挖掘。
1 基于互联网数据的金融探索。
这段时间和不少朋友交流,当然,更多的可能是请教,关于互联网数据在金融方面的落地。
诸如,基于大数据的风控、征信等等。
我们知道,这两年互联网金融很火爆,当然,这个风口也被p2p毁的差不多的。
抛开p2p不说,现在确实很多人在探索大数据在互联网金融方面的应用。
包括现在国外很火的fintech,即金融科技。也很大程度上依赖于智能化、数据化的能力。
但就从目前来看,诸如基于大数据的风控、征信等,看起来更像是一个伪命题。
比如贷款的征信报告,不管是臭名昭著的p2p也好,或者正规的贷款审核也好,他们更多依赖于芝麻信用分,或者银行的信用报告,甚至是一些大型网站的消费记录,或者政府机构的信息平台等。
这些基础信息的可用度远大于互联网上的开放型数据,不单纯是可信度的问题(涉及金融,信息可信度尤为重要),其清洗的成本也很高,因为很多隐私信息在开放集里是相对难获取的。
这就容易造成投入与产出不成比例。
基于互联网大数据的征信、风控等,我想,估计还是有很长一段路要走的。
2 互联网数据收集售卖。
这个就比较好理解了,基本就是数据爬取,清洗,规整,出售的模式了。
典型如数据堂,虽然其号称有众包模式的数据采集途径,但网络数据的获取依然是其重要的获取方式途径。
因为这里除了人力技术成本,是不需要其他额外成本的。
特别是我相信在早期的时候,数据堂更是以采集数据为核心运作的。
售卖数据这一模式可以行吗?
人家数据堂去年都B轮2.4亿融资了,你说可不可行。
3 微信生态的数据挖掘。
所谓微信生态,当然更多的是指微信公众号的生态。
基于微信公号新媒体的崛起,更很多深耕于微信公众号的自媒体们大放光彩。有人群聚集的地方就有利益的追逐。
现在很多自媒体们寻求着粉丝的变现,又称之为粉丝经济。最常见的如广告的投放,再诸如闪购式商品售卖。
以广告投放为例,挖掘自媒体的信息数据,为广告投放做指导,典型如新榜。
它意图将自己打造成一个广告平台,于是将微信公众号的信息进行抽取量化,并进行分门别类,意图将自媒体的广告能力量化,上接广告主,下接流量主。
看起来很行得通。
但是老实讲,新榜的爬虫能力还是蛮可以的,毕竟要把数十万个有质量的号有效的监控起来,这不是一个轻松的活。
但是,它并没有对信息进一步的挖掘,诸如提取各种有用的画像数据等,为其业务做更进一步的指导。
并且据业内人士说,广告更大的核心点在于资源的接入,而这种数据的价值挖掘匹配能力,只是一种辅助的手段。
所以,即使新榜的数据挖掘能力再进一步,在没有引入广告资源的能力前提下,可能一切还是空中楼阁。
当然,我们也不可否认微信生态的数据价值挖掘体现。
在一定的前提下,比如供应链的保障、广告主的保障,那么,数据挖掘挖掘、画像的提取将会是一个加速的体现,会让事情变得更好。
4 行业解决方案,咨询顾问。
基于互联网开放型数据做行业解决方案、咨询顾问的模式。
这种模式基本算是已经被认可的互联网数据价值落地的模式了。
基于互联网的开放型数据,进行爬取、清洗,规整,并且进行建模,最终产生诸如分析报告、结构化参考信息、顾问咨询信息等。
然后,卖这些结论数据。
典型如IT桔子、企查查、天眼查等等。
IT桔子目标对准于投资顾问市场,不过更多的是依赖于媒体信息,通过清洗出各种投资相关的信息,进行结构化,最终形成有用的参考信息,供投资方参考使用。
而企查查以及天眼查之类的公司,更多的以来的基础数据是政府的开放型数据平台,通过爬取(政府的信息平台,不要指望会开放API),清洗等,更大的在于不同平台的信息关系挖掘,关系链的挖掘,最终呈现更具有权威性的企业信息。
这方面,我最欣赏的是一面数据(免费广告安利,不谢),是一个小公司,但是其也是立足于互联网开放型数据,为企业等生成行业解决方案报告,以数据咨询顾问的角色而存在。
感兴趣的可以关注一下“数据冰山”,确实挺有意思的。
再回到这个话题,以行业咨询顾问模式的落地,基本算是最通用的方式了。
5 政务数据化。
我们知道,2015年国务院出台了《国务院关于印发促进大数据发展行动纲要的通知》,以及后续陆续有《关于全面推进政务公开工作的意见 》、《十三五战略》等,都有提到大数据。
抛开政府跨部门数据共享、数据开放那部分不谈,单论以大数据提升政务执行效率。
包括政府治理的精细化、商事服务的便捷化、安全保障的高效化等几个大方面。
基于互联网开放型数据,挖掘民众舆情、包括各种地方性论坛、社区、门户信息等,为政务更精准、高效做数据化支撑。
2016年,大数据更是被国家进一步推进。
所以,在未来的三五年,我想,基于互联网开放型数据,是否可以为政务方面提供更多的帮助。
这或许又是一个大数据能够独立产业化落地的一种形式。
最后
当然,除了上述那些,可能还有一些零零散散的应用。
但我更关注的是能否形成一定的产业化格局,而不是单纯作为辅助,内嵌于其他公司,进行数据化加速。
一直会持续关注这个话题,自己也在周末的时候写了些爬虫,尝试爬取政府网站数据,再结合地方性门户、论坛数据,看看是否能够挖掘出一些有用的舆情信息。
尝试探索这个方向,等有结论了再分享出来,也欢迎一起交流、探索~~
扩展阅读:
《DT时代变革的反思》//被阿里研究院收录发表
(全文完)
网友评论