最近两年大数据很火热,数据爆炸的时代,数据量呈指数增长。根据IDC预测,数据一直以每年50%的速度增长,每两年翻一倍。人类数据10%是结构化的数据,90%是非结构化的数据。今天你听到各种个性化推荐,千人千面,猜你喜欢等都是大数据的应用的产出。有句网友戏说的话叫:“你的APP比你自己还了解自己”。那么今天DO君就带大家捋一捋他是凭什么可以做到的。
01什么是大数据?
大数据也就是big data。这个意思从其英文单词就可以看出来,为啥不是huge data, vast data,large data等等。large,huge,vast在体量上都是大,程度比big高,而big是抽象意义上的大,更形象表达了大数据的特点。那你可能会问什么样的数据才能称之为大数据。简单讲就是达到PB级别的数据(1PB=1024TB),有3个特点。
-数据量大 volume, 是千万行级别以上的数量,超越了传统数据库处理的能力;
-维度多variety, 是可以多大上百种维度的数据,可以获得关于一个对象全方面的描述和认知;
-实时性velocity,要求数据的实时传输性,从数据的生成消耗,时间窗口非常小,1S中来计算,前1S你的行为,后1S就能在数据库中看到。
互联网公司应该是地球上目前除了未来物联网数据之外数据量最大的行业。大数据技术发展为互联网公司了解你提供了基础。
02用户的数据有哪些?
这部分一是让大家有个基本对于自己在互联网公司存储的数据有个认识,另外一方面可以让意向在互联网公司做用户运营或者用户行为分析的小伙伴的做个简单的科普。
用户基本属性维度(性别,年龄,常住地址,收件地址,身份证信息等等),登记注册时填的信息,涉及隐私信息比较多,一般公司内是需要特殊权限才能查这部分数据;
-用户的交易数据,包括支付时间,金额,购买频次等信息,这次数据是生产系统中直接提取出来的关于订单的相关信息落在数据库中,其特点是非常精准(记录订单操作过程中的所有状态),这块的数据可以了解你的支付明细,支付习惯,消费频次,才有了支付宝年底给出的年度账单。当交易频次不是很高,以及交易量不是特别大,普通的数据库是可以搞定的,这块传统企业其实也有用到,就是利用消费数据进行CRM客户关系的管理。
-将用户在APP中所有操作都记录下来,通过页面加载时触发,然后记录在行为日志文件中。这部分的数据量很大,普通的数据库是满足不了要求,使用最新的分布式hadoop存储。然后由于数据量特别大,精准度要求没有订单数据高,可能会一小部分数据丢失,但不影响整体的判断。
可以给你个具体的数值感受一下,一个DAU日均用户活跃度在1000万左右的APP,按照4%左右的订单转化率,大概日产生订单数据在40万行左右,但是访问数据假定一个人是50条行为记录的话,一天存储的行为数据行数在5亿行。所以这个数据量还是很吓人的,传统数据库很难满足。
可以看下张三这个人的页面级别行为记录(pvid就是用户的访问次序,vid是设备给用户分配的个人识别号,表中附加的信息是记录你的设备以及GPS定位相关的位置信息)
-用户的计算标签数据,俗话说就是给每个用户打标签,根据你的行为数据和订单数据等等,用算法计算出来的关于你的一些维度的标签。比如你经常点击科技类新闻,APP可能就给你打上科技新闻爱好者,也就给你推送此类相关信息。
当然用户的数据除以上之外还包括你的点评数据还有你与商家的聊天数据等等。
这些数据每个单独的没有太大价值,当上面四个维度数据串起来就可以得到对于你比较准确的认识, 从数据中提炼出关于你的的信息。跟用户相关的数据最后可以通过一个uid进行串联起来(可以想象成多次用vlookup或者SQL中的join实现用户多个维度数据的串联),最后APP就可以对你这个人有个完整的多维度标签化的判断(现在一般也被成为用户画像)。
03不被大数据杀熟?
那么有朋友会问,因为大数据的发展,以及互联网对于用户个人行为的了解,那么怎么样避免被大数据杀熟呢,有个小方法就是,用浏览器之后清理缓存,然后用手机浏览时,故意不按自己常走的方式,扰乱它的对于你行为的判断。
更多数据分析资料获取及数据分析相关文章,请关注微信公众号‘数据氧气’。
网友评论