什么是第一方数据?什么又是第三方数据?
第一方数据也就是自有数据。大多数公司的自有数据就是数据库里面的用户产生的业务数据或者是通过日志收集一些用户的行为数据。
第三方数据则是由专业的数据采集公司从别的平台或网站集合而来的数据。
第一方数据好的主要原因有:
-
第一方的数据是自己采集,很多不可控因素可以控制。比如一个pixel出错了,我可以马上定位追溯,而第三方有很多外部因素需要排查再定位,实施起来比较难,而且多数情况根本无法追溯。
-
第一方数据的历史信息会及时得到更新。 比如一个用户刚搬家更新邮寄地址,这时这条信息会马上更新在第一方数据库中。而第三方数据就有滞后性,或者从不更新。
-
第一方数据可以通过反馈,及时调整数据采集的方式、记录的颗粒度等,使数据更细更全更准确,便于做各种分析。比如:一级标签,二级标签的分类和从属关系调整等;颗粒到省,还是细化到区县等。
-
第一方数据有较高的可靠性,完整性。由于隐私的关系,很多第三方的数据已经删除一些敏感信息,或者由于第一方数据文件过大,删除了认为“不重要”的信息。
-
第一方数据实时采集和使用。通常第一方数据能够及时的使用,而第三方数据经过各种ETL,脱敏等通常需要几小时,一天,或者更长时间才能供使用。
-
第一方数据与外部mapping资源耗费较小。 和外部数据对接时,第一方数据调整的自由度较大。比如:外部数据是MD5加密数据,第一方就可以相应做出调整。但如果两者都是第三方数据的话,就要考虑什么样的匹配关系,加密的方法匹配等。
-
第三方数据格式较杂乱,需要花费更多时间来清洗。比如第三方数据格式有些是json,xml,txt file等,有时候每个column的type也不同,比如dictionary 或者 list。当然,有时候第一方数据也不一定那么可靠。
但是,所有事情都没有绝对,第一方数据也有不好的时候:
1.比如关于年龄的第一方数据,有些用户图方便,就随便选了个默认日期。这时第一方数据库就会出现很多都是1900年1月1日的用户。但是第三方数据,如果用了一些算法从各种行为推测年龄的话,往往会比第一方精确的多。
2.很多一方数据依赖在埋点上,如果没有充分考虑清楚业务逻辑和分析所需数据,那么一方收集到的信息并不全面和完整。而这时第三方,因为有特殊的渠道,可以快速获得这些信息。
最后,不得不提一下,现在非常流行的第三方数据外部匹配。很多公司会用于丰富人群画像或是其他目的。
这些第三方数据机构,从不同渠道获得数据,主要有:
1.搜索引擎
2.python爬虫
3.wifi 探针
4.运营商
5.信用卡公司等
我近几年接触过多家第三方数据,这些公司都号称自己拥有最强大的机器学习能力和丰富的人群属性和行为属性数据,能成功预测用户的性别,婚姻状态和是否有孩子,精准率达到80%。我们看一下这两家公司对同一批人做出的判断:
性别:
B女 | B男 | B未知 | |
---|---|---|---|
A女 | 337 | 780 | 189 |
A男 | 283 | 1857 | 345 |
A未知 | 0 | 0 | 0 |
婚姻:
B未知 | B未婚 | B已婚 | |
---|---|---|---|
A未知 | 10 | 26 | 35 |
A未婚 | 0 | 0 | 0 |
A已婚 | 773 | 1588 | 1359 |
孩子:
B未知 | B无孩子 | B有孩子 | |
---|---|---|---|
A未知 | 817 | 1546 | 734 |
A无孩子 | 0 | 0 | 0 |
A有孩子 | 132 | 323 | 338 |
习惯建模的同学会比较习惯看上面的matrix,简单来说:
A判断是男的里面,B觉得其中11%是女的,75%男的,14%未知性别;
A判断是已婚的里面,B觉得其中37%是已婚,43%未婚,21%未知;
A判断是有孩子的里面,B觉得其中43%是有孩,41%没有孩子,17%未知;
以上两家业界还挺有名的公司,给出的答案竟是如此不同,也是出乎意料。
网友评论