《谁动了我的数据》,写的浅显易懂,从商家为了获取更多的消费者剩余角度出发,解释了为什么更多的商家把标品做成非标,以及商家希望实现更深层次的价格歧视。而互联网时代的到来,或者说是大数据时代的到来,使得以上两件事实现起来更加便捷,不管是面向消费者的“千人千面”的购物网站,还是“不同意就无法继续”的用户协议,互联网背后的企业掌握了比消费者更多的数据,也逐渐进化地更了解这些消费者,继而能够提供更加“非标”的产品,做最深层次的价格歧视。
我作为一个互联网从业者,数据背后的分析师,所谓那个最懂你们的人,我想从我有限的认知角度,分享一些数据分析师视角的“大数据”。
首先,用户有没有被打标签?当然有,不光用户有,商家也有标签,商品也有标签,我理解这些标签其实是工作人员赋予他们的属性,在互联网上同时售卖的商品种类可能已经超过百亿量级,通过小卖部形式的手工盘货肯定是不现实的,所以需要更多的标签,帮助商品、商家、消费者三者之间产生关联,所以打标签的初衷是这个,是为了提高效率,更快更好的把货卖出去。至于“大数据杀熟”,同样的产品或服务但不同价,坦白讲如果不是相关项目中的核心同学可能也并不知道具体策略,我的个人推测,初衷可能也并不是要宰你,可能是因为近期粘性好,总来消费,“数据”猜测你近期不会流失,就不先发你券了,对你实施了价格歧视,从结果上来看达到了杀熟的目的。
第二,数据真的比我自己更了解我吗?未必。大家经常会吐槽人工智障,我刚在网上买了个桌子,还拼命给我推桌子,我又不是开饭店的,怎么会买那么多桌子!人是复杂的,每一次的决策都充满了各种因素的影响。不管是机器学习算法还是经验规则的提炼(比如大家熟知的啤酒尿布案例)希望通过现有的技术能力预测人的行为,基本不可能。即使像银行那样了解我,知道我的每一笔开支,但银行放贷的模型也不能保证是百分百准确的。从另一个层面说,正因为是“大数据”,所以基本无法观测到“个体”粒度,具体的每一个“个人”的数据就没那么重要,重要的是群体的统计特征。所以从这个层面说在大数据的掩护下,单个人的信息价值不大,除非对面是坏人,要拿着你的信息进行诈骗。
第三,未来的大数据是全知全能的吗?我理解还有很长很长的路要走。计算能力方面先不说,理论上算力足够的话,每一片雪花落下的地点都能被计算出来。人的复杂性也不讨论,上边说过了。我想讨论的是单纯“数据”层面面临的问题。这个玩意里边有一半是噪音,但你不知道哪一半是。你说我们要保护数据不被污染,所有创造数据的人都不觉得自己是在污染数据。拿刷单举例,从刷单商家的角度出发,单量上升,gmv做高,店铺的评分会涨,推荐的权重增加,未来销售才有机会变得更好,我在为我的数据努力,怎么是污染呢?为了不让平台掌握更多的个人信息,我开小号,用不同的用户名和手机号登陆,信息无法打通;为了避免被封号,分享内容时用“黑话”“暗语”沟通。所谓“脏数据”和“干净数据”之间的界限就没有那么清晰。
从我一个入行了几年的数据工作者的视角看,舆论对大数据恐慌,仿佛它是一个全知全能的神,洞察所有然后计算所有。在某搜索引擎上搜索了袜子然后另一个购物平台也知道了,并不是他们监听了你,可能是他们之间有数据传输交换的协议(因为用户键入是很好捕捉的)。而类似xx软件监听你的通话,刚说了什么马上就推广告,我理解这更多是“孕妇效应”,刚提到这个就更容易注意到这个,可能这个广告已经推送你好多天了,只是一直没关注到,毕竟如果要做到这个级别的语音转文本加自然语言处理能力,只给普通人推个广告也太大材小用了。
我理解当前阶段的大数据的主要风险在于信息泄露,毕竟有大把公司数据库里的手机号是明文存储。尽量使用正规公司的服务,以及尽量少填写个人信息,可能是我能够在“大数据”时代分享给各位的建议。
网友评论