美文网首页Data Engineering
读书笔记《决战大数据》

读书笔记《决战大数据》

作者: hxiaom | 来源:发表于2017-12-26 15:03 被阅读0次
    决战大数据
    • 个人数据管理标签格式


      个人数据管理标签格式
    • 以前,我们都是有问题找数据,而大数据时代,其最核心的特质则是“用数据找机会”。

    • 在阿里巴巴,我学习到一个很重要的经验——人和事是分不开的。企业要想成为一家数据化的公司,文化的培养必不可少。“混、通、晒”及“存、管、用” 两套内功是让企业的血液(数据)流动起来的关键。

    • 以“假定数据是可获取的”去思考问题。

    • 目前,在大数据方面,无法深入应用的原因在于,从收集到使用的大数据价值链出现了问题。

    • 用数据的人不知道大数据从哪里来,做数据的人不知道大数据如何使用。用的人不敢用,因为大数据的真实性;做的人不知道怎么用,因为大数据的复杂性。

    • 我们也需要客观地认识到,大数据现在面临的这些问题,其实就是把小数据中的一些问题放大了。

    • 断层才是大数据所面临的最严重的问题。现在,收集数据的人并不清楚未来使用数据的人要做什么,这是目前大数据的一大关键命门。

    • 创建模型的人也不知道自己所采用的数据在未来是否稳定,而使用模型的人也不知道整个数据的来路或加工过程。

    • 创建模型的人可能不知道此种模型效果好不好,而使用模型的人也不知道该怎么去反馈使用的结果。这样一来,这种信息不对称会越来越严重。

    • 中层管理者大都不知道数据能帮助他们做什么,他们没有管理者的视野,相比之下,你只需要告诉他们数据能解决什么问题即可。相反,数据分析师可能就会更加困惑不解:“我做了这么多东西,为什么你们不用?”

    • 当我们讲到数据价值时,没有人能对此给出一个合理的定位,原因就在于有几个关键问题没有区分清楚。一是要明确这是谁心里的数据价值,投资人、管理者、中层、数据分析师们心中对数据的价值自然不同;二是要明确数据的分类,不同类型的数据所产生的价值各不相同。

    • 数据本身的问题——大数据需要更主动的管理,也需要更多的创新。

    • 现在你所在的公司,面对的3大问题是什么?公司未来3个月中,要解决的问题是什么?在过去的1个月中,你做对了什么,做错了什么? 我现在给你5分钟时间,如果你说不出来公司目前面临的3大问题,而你作为商业智能部的负责人,就基本上不该继续坐在这个位置上了。

    • 在知道自己的思考有盲点的情况下,即便问题问得不好也并不丢人。但如果自视很高,什么问题都不问,盲点注定会相伴一生。我曾经见识过一位顶级CEO,其厉害之处就是,凡事都说:“我不懂,麻烦你再解释一下。”

    • 最重要的是思考,尽管你懂,但如果在问问题、看问题的角度上没有拓宽视野的话,想解决问题依然很难。就好像咏春拳里的“问手”,它并不能用于过招,而是寻找答案的一种方式。你一碰,它就有答案。你不动,它不动,而且它会避开,你只能寻找破绽再出击。“问题”是用数据来拿数据,而“问手”就是用一个问题引出另一个问题。

    • 在大数据的商业环境里,要既懂数据,又懂商业,还要拥有一套好的思维方法,而数据化思考正是这样一个崭新的事物。

    • 答案不重要,思考的角度才重要。可见,要习得一套巧妙的数据化思考方式,三分靠想法,七分靠实践。所以,切勿空谈。

    • 在思考数据的价值时,我认为,可以从三个维度来考虑。 首先,你能否清楚地识别(Identify)用户的身份?其次,你能否搞清楚收集的数据对你的价值(Value)是什么?最后,收集数据时的场景(Situation)是什么?

    • 是否知道用户是谁,决定了企业数据收集行为的意义大小。

    • 数据收集的价值包含两个维度。一方面,你是否能衡量这个数据对企业产生的价值——你不会将用户的所有行为都记录下来,而是记录那些对企业自身有帮助的数据,即企业价值;另一方面,你是否能衡量这个数据对顾客的价值——这个数据如何帮助企业为客户提供更好的服务,即客户价值。

    • 当我们谈大数据价值的时候,第一点要注意的就是角色不一样,对于数据价值的看法也就不同,所以在衡量价值时要考虑到受众和给予者这两个对立面的不同看法。

    • 场景与还原并行——前端还原消费者场景,后端还原业务需求。

    • 数据的本质就是还原,这是收集元数据的关键方法。

    • 我曾经在一次电商大会的圆桌论坛上提出了一个观点,当时与会者都很认同,就是我建议把一些以前用来观察用户忠诚度的框架,比如RFM模型[2]来做收集数据的瞄准器。有什么数据能让我更好地看到R,更好地看到F,更好地看到M?RFM是一个收集维度,个人PC、手机、平板电脑是另一个终端场景维度,PC能更好地收集R,手机能更好地收集M,这样就可以通过场景的不断变换来收集更多的数据。

    • 现在做数据分析报告,最后的一个问题变成了:“无线变了,这个报告的结果还是一样吗?你的报告应不应该也变一下?”

    • 数据的本质就是还原,这是收集元数据的关键方法。如果没有这个概念,你就不知道未来你需要什么数据,就更不懂得什么是重要的数据,到最后只会产生越来越多的无从辨别的数据。一旦数据多到了连你的公司都没有办法处理的时候,那么其他会处理的人、公司和国家就会把你毫不留情地挤出市场。

    • 如何更好地识别各个设备的使用者是否为同一个人,如何更好地理解用户在各个不同场景下表现出来的不同需求,如何更好地理解数据融合后产生的价值,将是未来商业中每一个企业都必须考虑的问题。

    • 作为数据分析师的你首先要想的是CEO会关注什么数据,是长期的,还是短期的?是风险最大的,还是风险一般的?或者是最近发生了什么事情?以及给CEO提供的数据要有什么注意事项,等等。

    • ,在没有解决一个问题的内涵之前,任意给出的一个指标,必错无疑。

    • 作为一名数据分析师如果你不把自己的分析与当下结合,是没法进步的。

    • 答案不是结果,方法才是。

    • “死”数据就是单纯存储在数据库中,无法进行分析和使用,并且不能够产生价值的数据。

    • 大数据的真正价值是将数据用于形成主动收集数据的良性循环中,以带动更多的数据进入这个自循环中,并应用于各个行业。

    • 多样的自循环方式打开了大数据之门,而进入这个循环的关键就是,从解决问题出发。

    • 在数据的自循环中,有两个核心的关键点:一个是“活”做数据收集,另一个是“活”看数据指标。所谓“活”做数据收集,就是指企业不要局限于只收集自己用户产生的数据,还要把“别人”的数据收集过来进行综合分析;“活”看数据指标,就是指企业不要局限于已有的数据框架,而应该结合用户需求的不同场景来灵活应用收集到的“活”数据。

    • 每个人都知道在收集消费者数据时最好是观察直接用户,但如果没有这个数据,你观察什么数据?答案就是,去观察行业内对这个数据最敏感的那些人。

    • 媒体常用的“克强指数”是“活”做数据收集非常好的案例,通过耗电量、铁路运货量和银行贷款发放量三大数据的结合来观察经济的发展,有助于剔除GDP统计数据中存在的水分。

    • 同样的人在搜索商品时可能会表现出不一样的行为特点,而这些不一样的行为就是我所说的场景,结合场景应用数据就是“活”用数据。

    • 在梳理阿里巴巴的数据时,我们惊讶于为什么阿里巴巴会有18个性别标签。乍一听,很不可思议。

    • 哪一个能更多地证明你是“本我”,而哪一个能更多地证明你是“被别人影响的我”?

    • 但是,如果用户在做一个比较重要的购买决定时,真实性别、真实职业以及一些描述个人的静态数据对于企业来说就更具有参考性了。对消费者来说,购物就是决策,凡是决策,都是要对比、细分、溯源、看趋势。所谓的冲动消费是“什么都不管了”,直接拍下,那就要分析购物当天的场景了,或许那天是“双十一”?

    • 如果企业不把数据活用起来,只是死盯一个数据的话,企业的运营必定不会理想。

    • “活”用数据,就是你是否能看出这个数据本身的局限是什么。一方面,是我们的数据为用户体验改善了什么;另一方面,企业在使用数据时,对活数据的运用解决了什么问题或者开创了什么机会。

    • 我常常会说,今日的数据分析师,需要有点军师的味道——从枯燥的数据中看到解开市场发展密码的本事。简单来说,就是具有商业意识的数据分析师,如果监测到网站上拥有6岁之下孩子的用户群在增加,那么他基本可以预测出奶粉的销量也可能呈现上升趋势。

    • 同理,只有具备了商业敏感度的数据分析师,才会懂得用什么数据来驱动公司实现经营目标,而绝不会单凭交易量就决定商品策略。

    • 换个场景看,一家刚踏入市场的B2C和已经占领大部分市场的B2C,它们的关注点会一样吗?当然不可能,因为前者看的是流量,赚的是人气;但流量对于后者的意义就没有那么大了,因为它们更关注交易率、转化率和回头率。

    • 我把数据信息的梳理过程,理解为数据世界里的“仪表盘”。比如,在开车时,如果水温过高,仪表盘就会亮灯提示;同样,网站的关键信息也可以监控,在电子商务交易中,行为数据和商业模式之间的逻辑关系组成了“仪表盘”——好的仪表盘,对于商业活动中的好现象和坏现象都会有敏锐的反应。

    • 为了方便理解,我想出了两个名词:前端行为数据和后端商业数据。前者指的是访问量、浏览量、点击率及站内搜索等,是反映用户行为的数 据;而后者更侧重于商业数据,比如交易量、投资回报率、客户终生价值[LTV(Life Time Value)]。

    • 遗憾的是,今天许多电子商务公司,每天都在做“碰巧”游戏:今天推荐A家的产品,明天撤下A家的产品;今天做低价促销,明天又做线下活动。这些决策的改变,没有“仪表盘”的指示或良好的监控,都是闭着眼睛在“碰巧”。

    • 我们简单讲解一下无线数据收集的原理。无线基本上分为两种形式,一种是WAP,另一种是APP。对于WAP来说,整体的工作原理和PC差不多。

    • APP数据收集的方式包括两种:一是收集用户联网时请求服务器的记录;二是在将用户的行为数据记录下来之后,适时地传给网站。但不论是什么样的收集方式,无线数据最终的表现是在没有账户体系的情况下,和PC的用户行为完全没有办法进行关联,这也就意味着用户的数据出现了断层。

    • 面对无线数据,要解决的主要问题有两个:一是做到高效准确的收集;二是培养数据分析师的多屏思维。

    • 所谓做到高效准确的收集,就是需要建立一套面向多操作系统、多版本、自动、可灵活配置的用户行为获取系统。通过这个系统,开发工程师不再需要采用人工写代码的方式来收集数据,从而也就保证了数据的纯净无噪音。但是,这套系统还需要应对一个问题,那就是可能出现的因操作系统的变化而使用户识别失效的情形。因此,企业需要能够建立自己的用户识别方式,能够建立独立于设备号之外的识别代码。同时,这套系统还需要做到多系统的适配,要保证同一个版本在安卓和iOS上面的数据具有一致性。

    • 在无线出现之后,很多数据仓库工程师则将无线也作为一个并列于用户属性或者浏览行为的主体进行保存。 其实,这种做法的误区是没有真正理解无线的含义,无线应当是作为一种横向的基础模型穿插于各个垂直的主题模型之中的,如果将无线作为一个独立的模型,在进行用户行为还原和用户分析的时候则会变得很困难。

    • 从数据化运营角度来看,云是计算,端是应用。“云+端”的模式使数据科技的价值得到了极大的发挥, 就像“INTEL inside”一样。从运营数据的角度来看,端是传感器,云是“储存+管理”,而“多屏+移动端口”就是未来数据创新的孵化器。

    • 当我们分析一份数据的时候,一定要问自己:“样本的背后有什么是我们不知道的。”

    • 样本数量是否足够和是否平衡的问题,是另一个常见的“偏见”。

    • 另外一个影响样本的因素是时间。

    • 偏见还会因为我们抽样时的询问方式出现。

    • 值得注意的是,样本跟大数据不同。大数据相信全量数据,而非样本;是分析得出,而不是抽样获得。

    • 在调研过程中,如果这个样本在你调研前就是有目的的,那么这份有偏见的数据也是有价值的,比如可以通过交叉信息来验证结果是否准确。这

    • 如今,数据在企业中已经充当了一种生产原材料的角色,而既然是原材料就要被估值。 从数据角度来说,估值就是通过不同的维度去思考数据的价值。

    • 对于数据的认知,完全取决于我们是否拥有认知自己所拥有数据的能力,是否能够筛选出到底什么是我的核心数据,到底什么数据会被我们频繁地使用。

    • “数据”本来就是一个既清晰又模糊的概念。之所以说“清晰”,是因为每个人对数据都有概念,而且每个人每天都会接触到各种各样的数据;而说“模糊”,则是指数据本身包含了各种不同的类型,能够产生完全不一样的价值。

    • 一个好的工匠必然对各种材料的性质及使用方法了如指掌,而一个好的数据从业者则必须要对各个数据的价值和稳定性洞若观火。

    • 今天,我们多数人把自己关注的焦点放在结果上,忽略了过程,而事实上这些过程其实也蕴含了数据管理的过程和数据分类的过程。有些关键数据必须做好保护,若这几个数据变了,或者被污染了,前面的价值也就无法保证了。

    • 今天,我们多数人把自己关注的焦点放在结果上,忽略了过程,而事实上这些过程其实也蕴含了数据管理的过程和数据分类的过程。有些关键数据必须做好保护,若这几个数据变了,或者被污染了,前面的价值也就无法保证了。有人肯定会问,管理数据是一个过程,能不能分解?能不能区分哪些元素是比较重要的?哪些是有代替品的?哪些是无可取代的?哪些是不可或缺的核心?其实,这些问题就包含数据战略。

    • 按照是否可以再生的标准来看,可以分为不可再生数据和可再生数据。

    • 对于用户日志类等不可再生数据而言,必须要有很完善的保护措施和严格的权限设置。现在,很多系统都有备份多份数据的功能,理想情况应该是,因为磁盘损坏而造成数据丢失的案例应该越来越少。但是,因为系统升级失败和误操作等失误造成的数据丢失在各家公司都屡见不鲜,见怪不怪了。

    • 对不可再生的数据而言,已有的数据要严格保护,想要但是还没有的数据就要及早收集。

    • 对于可再生数据而言,要及早做好业务的预判和数据处理的规划,这样一来,数据在需要的时候就能够快速地获得应用,我们把这一数据叫作数据中间层。

    • 按照数据所处的存储层次来看,可以分为基础层、中间层和应用层。

    • 基础层通常与原始数据基本一致,也就是仅仅存储最基本的数据,不做汇总,以尽量避免失真,从而用作其他数据研究的基础;中间层是基于基础层加工的数据,通常也被认为是数据仓库层,这些数据会根据不同的业务需求,按照不同的主体来进行存放;应用层则是针对具体数据问题的应用,比如作为解决具体问题的数据分析和数据挖掘的应用层的数据。

    • 在存储层这个层面上,最大的问题就是数据的冗余和管理的混乱。

    • 我给出的建议是,基础层必须统一,因为这是最基本的数据,而且基本数据是原始数据。除了备份的需求外没有必要在各个场合保留多份数据。只要保证这个数据有良好的元数据管理方式,就能极大地降低成本。而对于中间层和应用层而言,则要视具体情况而定:如果公司的业务相对单一且成本压力比较大,则建议集中式管理;如果公司的业务量非常大,则可以由多个数据团队来进行分散式管理和应用,以保证基础层单位有最高的灵活性。

    • 照数据业务归属来看,可以分为各个数据主体。按照业务归属分类的意思就是,将数据按照不同的业务主体分门别类地进行归纳。就好像仓库一样,将不同的物料进行分类存放,可以提高其使用和管理的效率。

    • 对于数据的分类主体,则要根据业务特点进行归类,并没有一个特别的硬性规定。总体的原则就是让数据的存储空间更少,分析及挖掘的过程更简单、快捷。

    • 照是否为隐私来区分,可以分为隐私数据和非隐私数据。

    • 数据从安全的角度可以进行两种类型、四个层次的数据分层。两种类型就是企业级别和用户级别。企业级别的数据,包括交易额、利润、某大型活动的成交额等;个人级别的数据就像是刚才提到的身份证号码、密码、用户名、手机号等。四个层次是对数据进行分类,分别有公开数据、内部数据、 保密数据、 机密数据。

    • 而数据安全工作的推动,初期往往会受到一线员工的反对,因为任何一个安全系统都意味着已有的权限被收回,也会因为改变工作方法而降低效率。所以,拥有大数据的企业高管必须要关注数据安全,否则数据越大,对“恶人”的吸引力就越大,最终用户和公司的损失也就越大。

    • 能够辨别关系、身份的数据是最重要的。这些数据应该是有多少存多少,永远不要放弃。在大数据时代,越能够还原用户真实身份和真实行为的数据,就越能够让企业在大数据竞争中保持战略优势。

    • 数据价值1:识别与串联价值

    • 在一般的场景下,有多个账号可能不会是什么特别的问题,但是一旦涉及反欺诈等需要识别到“人”的场景时,则必须要将之识别出来。

    • 我认为有些人把自己的生日放在SNS(社交网络)上,是非常不妥的做法。

    • 数据价值2:描述价值

    • 在通常情况下,描述数据是以一种标签的形式存在的,它们是通过初步加工的一些数据,这也是数据从业者在日常生活中做的最为基础的工作

    • 对于企业来说,数据的描述价值与业务目标的实现并不呈正比关系,也就是说,描述数据不是越多越好,而是应该收集和业务紧密相关的数据。

    • 用来描述数据最好的一种方式就是分析数据的框架,在复杂的数据中抽象出核心的点,让使用者能够在极短的时间里看到经营状况,同样,又能够让使用者看到更多他想看的细节数据。分析数据的框架是对一个数据分析师的基本要求——基于对数据的理解,对数据进行分类和有逻辑的展示。通常,一般优秀的数据分析师都具备非常好的数据框架分析能力。

    • 数据价值3:时间价值

    • 时间价值除了体现历史的数据之外,还有一个价值是“即时”——互联网广告领域的实时竞价(RTB,Real Time Bidding),它是基于即时的一种运用。

    • 数据价值4:预测价值

    • 凡是能够产生数据,能够用于推荐的,就都会产生预测价值。比如,推荐系统推荐了一款T恤,它有多大的可能性被点击,这就是预测价值。预测价值本身没有什么价值,它只是在估计这个商品是有价值的,所以预测数据可以让你对未来可能出现的情况做好准备

    • 预测价值的第二部分就是数据对于经营状况的预测,即对公司的整体经营进行预测,并能够用预测的结论指导公司的经营策略。

    • 作为无线团队的负责人,到底怎么判断现在的经营状况和目标之间存在着多大的差距呢?这就需要对数据进行预测。通过预测,将活跃用户分成新增和留存两个指标,进而分析对目标的贡献度分别是多少,并分别对两个指标制定出相应的产品策略,然后分解目标,进行日常监控。这种类型的数据能够对公司整体的经营策略产生非常大的影响。

    • 店铺评分系统(DSR),

    • 现实中,把自己放在一个很低的位置去提问,这是很聪明的做法,但这对于很多人来说其实很难做到,特别是在拥有一定的地位、一定的能力后,他们更不愿意去承认“我不知道”。但你要知道,只有你知道“我不知道”,才能理所当然地说:“对不起,我不懂,你能再重复一遍吗?”

    • 当我们看得长远以后,许多东西就公平了许多。同样的道理,在人生里,有大爱。学会帮助别人,你会发现,整个世界的时间仿佛都被拉长了,很多东西都变得公平了,而选择就变得容易了。

    • 过去收集数据很难,而现在获取数据资源变得越来越容易,但是如果收集数据的出发点不是为了解决问题,那么收集再多的数据也没有什么意义。 同时,许多企业还有一个疑问:“现在收集数据不难,成本也不高,为什么不先收集了数据再说呢?等以后需要数据来解决问题时,再拿出来用不是也可以吗?”这位高人同样也给出了这个问题的答案,他对此持否定观点,并指出用这样的理念来设计数据应用注定会失败。

    • 在收集数据时,我们必须知道这些数据未来可以用来做什么,如果今天都想象不出来的话,日后就更不可能了。

    • 重复购买率

    • 数据应用因小而美 “小”不是指数据量,而是指应用的目标很具体。

    • 许多人在没有获取足够的数据,并且缺乏对数据理解的情况下做出决策,其实是在“享受”自己的无知。打个比方来说,对于一款数据应用,如果我的目的是分辨两种决策谁更好以及差异在哪里,这就是一个很具体的问题;但如果我的目标是想知道如何让公司赢利,这就是一个空泛的目标。

    • 当开发数据应用的时候,数据就等于原材料;当原材料一直处于变化的情况下,做出来的产品就很容易出问题。体会到数据和应用的关系之后,我最后决定从小角度切入,先把小应用做出来,这就是很好的瞄准器。

    • 把数据放进“框”之中 在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,要把数据放在一个“数据框架”(场景)之中,才能看出存在的问题。

    • 做数据框架的时候,要特别注意框架不是静态的,而是存在博弈的,需要把竞争对手的因素考虑进来。

    • 用数据”更多的是一种方法论,而“养数据”则是一种数据战略,是基于深入业务理解的更高层次的商业决策。 “养数据”还有一个重要的含义,就是要决定收集哪些数据。

    • 被动收集数据的行为是“收集”,而主动收集数据的行为则是“养数据”。

    • 养数据通常有两类,一类是网站自身没有的数据,需要用户主动提供的;另一类是公司拥有的,但没有进行收集的数据。

    • “用数据”更多的是一种方法论,而“养数据”则是一种数据战略,是基于深入业务理解的更高层次的商业决策,,数据养的时间越早,积累的数据也就越多。养数据同样也是一种管理和商业艺术,在养之前可能谁也不确定最终会出现什么后果,但一旦养成,则会产生非常大的商业价值。

    • 如果你要做一名数据分析师,你脑海里就要长期装着这样一个想法:“这个数据是怎么来的?”你要打破局限,不要把自己封闭在狭隘的思想中。在未来商业中,谁被逼到“或”式选择境地,往往谁吃亏。

    • 品觉的书主要讲的是决战!那么咱们就从兵法的角度来看大数据!只讲三点: 第一,对“道”的理解:就是分析师对人和事物基本规律的诠释。分析问题千万不要从分析大数据开始,而是要从对人、世界、产品或者商业行为最基本的认知着手! 第二,对“计”的理解:计就是计谋!交战之前用“商业智能”的一个重要作用就是要造成信息情报不对等,然后进一步造成了战略优势的不对称,从而造就取得优胜的“势态”。 第三,对“胜”的理解:决战的目的是要胜利,兵法上取胜的一些基本的要领比如以快打慢、以少胜多、以众击寡,在大数据分析上完全适用,要做到分析得快速而精准、大规模部署以及产品化等。

    • 在数据中,盲点可以分为两类:一类是物理盲点,另一类是逻辑盲点。

    • 所谓的物理盲点,就是指在数据库中不存在这样的数据,即企业没有收集到应该收集的数据,这一类数据问题的产生通常是数据收集策略出了问题。

    • 逻辑盲点就是有数据但是没有被很好地发掘出来。数据逻辑盲点的出现很多时候与数据分析师或者数据使用者的经验和敏感度都有关系。在分析数据时,相关从业者需要对数据抱有敬畏之心,不可轻易放过任何一个可能产生问题的点。

    • 在逻辑盲点中,最大的盲点是将PC数据和无线终端数据混着看。

    • 数据除了物理和逻辑盲点,甚至还有一些是人为制造的“盲点”。人为制造的盲点就是故意把数据进行掩盖,或者人为地调整数据的口径。

    • 面对数据的盲点,正能量思考告诉你怎么做可以到达成功的终点,负能量思考则告诉你怎么做才不会失败。

    • 高风险能让一个人对不可预见性非常敏感,那时候的负能量思考和避免风险的能力就自然而然地出现了。

    • 如果我们平时也懂得用这样的“思维”思考,我们就会避免很多错误。如果这时我们再站在“坏人”的角度去做负能量思考,觉得别人出错就是你的机会,很多人出错就是你的大机会,这甚至会产生一条很有价值的产业链。

    • 无意识地培养负能量思考,就叫乱想。如果你为了一个目的去规范训练的话,你就会成为一个很厉害的“小偷”;对于日常生活来说,叫作很厉害的“观察者”;而对于数据世界来说,你就是一个很厉害的“数据分析师”。

    • 我们观察数据的时候容易只将焦点放在正面数据上,而忽略掉负面数据。

    • 以我的日常工作为例,在团队给高管们做报告的时候,我通常不看报告,而是主要记录高管们“什么时间点头”、“什么时间针对性地做了笔记”和“什么时间没怎么听在看手机”。你不要小看这三个数据,当与当时报告的内容对应(关联)起来时,我就能容易地知道在刚才做的报告中哪一部分是不吸引人的和哪一部分是需要改进的。尤其是高管看手机的时间,完全可以算是理论上的“负能量”数据,但对报告的改进其实非常有价值。

    • 错误的经验会让你不断地犯错误。

    • 经验会成为盲点,还有一个重要的原因是你没有注意到环境变化的趋势。

    • 在海量的大数据面前,我们面对的最大盲点就是,衡量应该收集多少数据才算足够,即存;如何管理从未见过的如此多和广的数据,即管;如何使用它们实现更大的价值,即用。

    • 如果要观察出一个人时态的差异,就必须了解这个人的常态。常态是什么呢?常态分为以下6种:弱、狂、哗、周旋、慵懒、媚。所谓弱态,是指言语轻细、动作温柔、包容性强,像小鸟依人一般。所谓狂态,则是指不修边幅、倔强好胜、言谈举止旁若无人。我们可以对比自己身边的朋友,就可以轻易判断出他的常态。一个属于狂态的人在被问及意见时,通常愿意主动地表达观点,并坚信自己是对的。一个属于弱态的人则不会表露太多意见,会给出模棱两可的意见。哗态的人,通常遇到事情会大手一挥:“你们都别说,让我来说。”周旋态的人被问及选择时,说到A会说A很好,说到B会说B其实也不错。慵懒态则比较漫不经心,什么都不是很在乎。媚态则意指谄媚。

    • 从数据化运营到运营数据是不断运行的循环。在这样的循环中,会容纳许多新的、不同维度的数据,这些数据经过在整个循环中的适应过程,然后再运用到数据化运营中,并且改变原有的运营方式,这个过程就是我认为的大数据落地的方法。

    • 我们做数据化运营,其前提是假定数据是稳定的;而运营数据,则是假定数据都是可以获取的,而且是不稳定的

    • 假定数据是稳定的,也意味着我们习惯于不去寻找一些新数据。

    • 从企业的角度来讲,数据化运营一般是自上而下的——管理者强调KPI指标,员工们按照目标进行分解。所以,数据化运营是计划性的,但凡计划性的一定都是稳定且结构化的。 运营数据却是自下而上的,经过了无数的错误和无数的实验,慢慢地向上追溯。就像阿里巴巴有18个性别这件事情,这18个性别不是管理层凭空想象出来的,而是将众人发现的性别经过交叉比对,分析到底在什么场景下更适合。可见,这样的结果是试出来的。

    • 从假定数据可以获取的角度来思考问题,是数据化运营里很重要的一个方法,

    • 现在,最常见的一种“数据拿数据”的方法就是“A/B Test” 。原理是,我本来知道你对某种东西很感兴趣,今天我给你做一个测试,本来是A页面,我给你一个B页面,然后看看你有什么样的反应(有点像功夫里的假动作)。其实,B页面拿到的数据肯定是基于A页面拿到的数据的。

    • 我们在大数据环境里运营数据时,有可能走不通的原因是,现在的数据已经庞大到需要管理才能到创新的数据化运营。这个循环能否成型,往往需要很长时间的努力。

    • 我经常听到很多淘宝卖家说:“先开枪,后瞄准。”我常常思忖,这句话在逻辑上怎么能讲得通呢?正常的逻辑应该是“先瞄准,后开枪”啊。后来我知道了,其实这句话是有前提的,那就是:当你没有数据的时候,如何在探索之中寻找到有参考价值的数据,并且最后发现目标,做出决策。所谓开枪,就是在一堆海量数据里盲选,而瞄准则是在海量数据里盲选出出有价值的数据。这样,“先开枪,后瞄准”才是有价值的。 将这一观点进行延伸,有关开枪和瞄准的顺序问题,就像现实中,很多人容易把目标和目的混为一谈,目的和目标区别在于:“目的”是要到达的终点;而“目标”则是衡量到达终点的价值标准。

    • 用一句话来总结野蛮生长就是:“是,但不是;不是,但是。” 这句话又怎么理解呢?我们用“是,但不是”举一个例子,我们常常会这么评价一个人,“他是一个好人,他也是一个坏人。他是好人是因为他在外面对朋友很好;他是坏人,是因为对自己的家人很坏。”再说“不是,但是”,比如说某个人创业失败了,但是不是完全失败了呢,这其中还是有很多数据价值的。

    • 我很赞赏他说的 “发现交易量急速上涨的时候,就要停掉广告” 。这句话体现了他作为一名科学家的思维逻辑——当交易量急速上涨时,对订单的处理能力就会下降,所以减少广告可以很好地控制局势。

    • 只有具备商业敏感的数据分析师,才会懂得使用什么数据来驱动公司实现经营目标。数据部的人要和业务部的人经常“混”在一起。

    • 如果数据分析师缺乏商业意识,那么公司就成了“盲人”——分析师不知道该使用怎样的逻辑去分析数据,而公司的决策层也得不到任何有价值的参考意见。

    • CEO是没有多余精力来解读页面浏览量(PV)和独立访客(UV)等数据的。他们只需要知道数据是否有问题、反映了什么问题、最近有什么新的发现以及需要我们做出什么样的改变。

    • 商业敏感是要靠“混”出来的,它并不会凭空出现在你的面前。

    • 坚持带着业务问题来观察数据或者带着数据来观察业务,兼备二者的敏感,就是做到了“通”。

    • “通”有两个场景。比如说,现在有一个商业场景和一堆数据,这两者产生关系时,就是商业模式和数据彼此的“通”,我们可以称它为“数据中间层”,简单来说,它就是能够敏感地反映出商业变化的数据群(Smart Data Set)。

    • 另外一种更深入的“通”,就是存在于公司组织中的数据。譬如,有一个商业问题,但是需要数据A和B、C、D互通,才能解决。

    • 现实中的“不通”,也有两种:一种是从人的角度来说的,比如说人在思考上的“不通”;另一种则是从公司的角度来说的,比如在架构上的“不通”。这两者角度不同,造成的损失也会有差别。大部分的公司都会出现“不通”的情况,比如,部门与部门的隔离打乱了整个流程的连贯性,财务部门对产品、市场和运营等的不敏感,可能会把数据打散,这样一来,商业活动就根本没有办法继续进行。

    • 想做到数据的积累和沉淀,想要打通数据,建立合理的系统是不二之选。首先,做好数据安全工作,以保证公司内部不同职位的员工可以察看不同的数据;然后,统一不同部门的数据标准,使公司内部数据有统一的接口,避免混乱;最后,关联不同部门的数据,创造机会让数据的运营可以扩散至数据部门之外。

    • “通”是“混、通、晒”里最关键的连接点。以前,数据量没这么大的时候,公司“混”完就“晒”了,完全凭借商业敏感去运营数 据。而现在海量数据成为主流,“通”也就成为了运营数据不可或缺的一部分。

    • 数据能不能做到在获取、使用、分享、协同、连接、组合之上让自己变得超级简单和便捷,这是数据化运营里面非常重要的一点,这也正是“晒”的内容。

    • 在“晒”数据层面上,通常是通过数据来回答这几个问题:业务好还是不好,数据如何改变可以让业务更好,如何利用数据帮助业务发现机会,甚至产生出新的商业价值。这些问题看起来是递进关系,其实不然,因为具体应该用数据解决什么问题,要根据业务的场景来决定。

    • 数据需要有框架可依:数据如何来证明业务好还是不好 这个问题用更专业的语言来说,就是如何搭建数据的框架,并通过数据框架来解答业务水平的好坏。所谓的框架就是,对一个业务进行指标化的分解,并通过有限多个指标来客观描述业务的状况。指标化的分解是为了能够快速地定位到问题。

    • 在电子商务领域,评价业务水平通常有两套指标,一套是常用的计算成交额的方法,即流量×转化率×客单价=成交额,它能够评价一个类目、一个商品的健康度。另外一套指标在商品大促的时候使用居多,即预热期加入购物车的商品数×商品单价×经验转化率×经验成交额占比=大促成交额,因为经验转化率和经验成交额占比通常是两个固定的数据,所以只要看看购物车有多少商品及其价值,基本上就能算出来大概会有多少成交额了。这就是数据框架的作用,它使我们分清楚了业务的状况。

    • 业务需要进行比较才能判断好坏,而比较的前提就是要不断地去寻找比较对象,

    • 如果业务场景是要查找精确的数据时,用图,就错了;如果业务场景要观察变化趋势却用了表,那也错了。一个好的分析师,不论是设计数据产品还是做图表都需要有很好的“晒”的意识,而且还要让“晒”出去的数据能够吸引到更多人的注意。

    • 利用数据帮助业务发现机会就涉及具体数据在业务场景中的应用了,这里最核心的价值点就是使数据变成人人都要用,而且是人人都必须用。

    • 其核心就是通过业务和数据的结合,将数据“晒”出来,从而形成一种竞争力。

    • 在我的谈话过程中,我的大脑中始终会有几个问题被放在首位,这几个问题不会随着谈话的进程而随意改变,这些问题包括:我这次要解决的是什么问题?对方(包括客户、同事等)要的是什么?现在提出的方案解决了这个问题吗?在只开一扇“窗”的前提下,如果会议中出现了不符合主题的内容,我一般不会过多参与,或者有意识地去结束这些与会议无关的话题。

    • 收集数据不是目的,让收集起来的数据如何产生价值才是最终的目的。

    • 就数据的收集而言,最重要的不是看我们收集了什么数据,而是要思考这些数据如何使用以及收集这些数据到底能够起到什么样的作用。用一句话来说,就是收集数据不是目的,收集起来的数据如何产生价值才是最终的目标。不过,如何收集在未来具有价值的数据的确是一个难题,当中就需要一些经验的判断了。

    • 数据存储下来之后,数量和广度都很大,就需要对之进行完善的管理。数据管理的内容包括很多方面,比如,数据的来源、如何让数据不丢失、如何保护数据的安全、如何让数据准确和稳定以及如何更好地运用数据,这些都是数据运营中的“管”。但是,“管”并没有一个标准可循。在我和一些投资人以及国外互联网公司的数据专家们的交流中,他们都认同我的一个观点:大数据管理到底要怎么做?答案就是“没有准确答案”。

    • 我觉得,在我职业生涯的这些年,最值得反思的就是这句话。因为没有一家公司可以让你无止境地收集数据,然后再使用,这根本是不现实的。 而这就是“不做决定的代价”。因为,在这个世界上,有一些决定是我们一定要做的。从运营数据的角度来说,如果我们只收集数据而不做分析和应用的话,代价就是很沉重的存储成本。

    • 在面对“决定放什么数据进‘冷库’”和“决定什么数据在紧急情况下一定要保护”的问题时,你就会发现以前我们所讲的观点——数据先收集起来,将来再使用,完全是一个伪命题。

    • 数据管理,是大数据行业的“脏活”、“苦活”和“累活”,是最悲催和最难解决的事情。 如果没有这些背景作铺垫,我对很多公司在做所谓的大数据的运营就持有怀疑态度了。所以,我觉得很多所谓的“大数据专家”都是作家,而非真正的数据人。

    • “存、管、用”也是一个反复验证的过程。

    • 通过业务规则结合数据分析来建立标签。

    • 2.通过模型来建立标签。

    • 3.通过模型的组合来生成新的标签

    • 标签的使用,最核心的就是数据中间层和前台业务层的对接,并且能够让运营人员非常方便地进行商品的设置。这里涉及两个核心点:一是中间层和业务层的对接,二是中间层的易用性。下面分别就这两个内容来做一些探讨。

    • 中间层和业务层的对接。目前,对接是在互联网广告中非常热的概念,典型的应用之一就是DMP(Data Management Platform)。

    • 一方面,要找到本质问题,就需要我们在思考时排除过多的东西,使我们能够更好地集中精力去解决重要的问题;另一方面,我们要有方法去发现本质问题。 能够透过现象看本质是一个非常重要的方法,对这个方法最简单的描述就是,不断地用逻辑方法将问题进行分解,直到不能分解为止,然后从根本处去解决这个问题。

    • 在分析问题本质的时候,有一个很好的方法可以用,叫作MECE(Mutually Exclusive Collectively Exhaustive),意思是彼此独立、完全穷尽。这是一个麦肯锡方法,这个方法很像图10—1至图10—2这两个对销售额分析的分解图,只有在解决问题的时候要做到彼此独立且完全穷尽,这样才能够找到问题最深层次的本质原因,才能够就这个原因找到合适的解决方案。

    • 总的来说,当我们遇到一个问题之后,一定要问自己这到底是现象还是本质,如果是现象那就一定要找到本质。被表面现象迷惑是很多人都会犯的错误,而所谓的成功,就是少犯错误,就是早一点从本质出发去思考问题。

    • ,过去,我们更多地是带着问题去寻找能够验证自己观点的数据,而今天我们却可以使用数据去预测可能出现的问题。

    • 假定数据是脏的 在处理数据的时候,会像污水处理厂一样,每一步都问自己要如何处理这些污水。这种情况的出现,到底是因为数据源脏了,还是因为数据提炼过程做得不好?

    • 假定数据是“脏”的来处理数据,在大数据时代将是一个非常重要的趋势。

    • 学会慢慢淡化数据 数据是有优先值的,在数据中有些是特别核心的,有些即使缺失了也没有多大问题。所以,我们要学会真正坐下来盘点那些对公司最有价值、对用户最有价值的数据。

    • 数据的标签化管理 数据的属性标签是人类经验判断的数据,是数据后的数据。

    • 在属性管理中,假如属性是“×”,那么我们一定要定义清楚什么是“×”,在没有清楚定义的情况下,这个数据的属性是毫无价值的,而且,将来你也依然不知道怎么使用这一数据。

    • 属性管理的层级化十分有必要,但是在使用数据前,必须要了解数据的场景、数据是如何放进去的和数据的场景是什么。在这一切未知之前,就说数据如何好用的话,是不可能的。所以,现在企业运营数据的趋势是,我们应该找出一些属性进行归类,然后再慢慢地考虑如何提炼,这对于未来非常重要。

    • 重要的是数据和数据之间的关系,而不是数据本身 大数据价值的实现,在于数据与数据的连接。

    • 数据的实时化与实时性分层 我们千万不要把所有的能力都用来处理实时化的问题,因为我们依然会有大量的数据需要在恰当的时机(Right Time)处理,有的数据是重要的,但不紧急。

    • Real Time是“实时”,Right Time是“恰当的时机”。但是,据我看来,数据处理不一定要实时。

    • 很多人会问,大数据目前发展到什么阶段了?我的答案是——水分太多的阶段。但毋庸置疑,大数据已经极大地影响了我们的社会,但还远远没有达到它的爆发点。

    • 人和机器的结合,或者人和数据的结合将是未来的一种进步模式,人类将通过数据变得更加智能。 最后我想用两句话来总结: 当下,我们要学会人机分工,让人做人最擅长的事情,让机器做机器最擅长的事情; 未来,我们要相信人机结合,人机的界线已经模糊,无人驾驶汽车已经变成可能。未来人类的身上流动着的是血液以及数据。

    • 为什么经验有时会使人犯低级错误呢?在这里,我们应该将其分成两种情况来看待:一种是信息不对称;另一种则是逻辑错误。

    • 一般而言,数据分析师对于信息是很有洁癖的,也就是在对于经验的累积上,他们对质量把控得十分严格,如对于数据信息的排序、分析可靠的信息源进行多次使用、了解信息的出处和知道信息的提供者等。根据这些,数据分析师在它们的辅助下做出了决定。这意味着,你所有的信息来源都需要有正确的途径和渠道,不然,这个决策也会出现偏差。

    • 经验是对过去的度量,但不是所有经验信息的质量都很好。

    • 还有一个因素导致经验使人变笨,那就是在分析时忽略了趋势,

    • 成功路上,有4种东西是可以积累的,分别是财富、人际关系、知识以及思维方式。

    • 思维方式与你所做的选择和决策密切相关,冥冥之中决定了“运”的走向。

    • 我要对数据做一个积累,我要对我所在行业中呈现出的信息进行积累。

    • 在我的微博关注里,我按照两个维度来分类我关注的人:一是他们懂什么东西,即有什么特长;二是根据重要性,进行5~20分钟,或者45分钟关注度的划 分。这样划分的意思是,如果今天早上我只有5分钟,那我就只看重要朋友发布的信息;如果我有10多分钟,我会把重要性为5分钟和20分钟的朋友发布的信息都看完。

    • 我现在已经对数据积累与决策质量之间的关系具备了一种直觉,所以我开始对电子商务有“觉”了。这一过程就如同前面所说的内三板斧中的 “混、通、晒”,我每天“混”在电子商务的环境中,不断地吸收和寻找规律,这是“混”;每天我将收集来的数据和我每天所处的电子商务场景进行打通,则是“通”;至于“晒”,就是这些数据如何影响到了我在工作中的决策。

    • 在“养数据”的过程中,关键词标签是进行数据管理最重要的工具,透过标签我们可以快速定义一篇报告的内容,而数据每次调用的顺畅情况则可以用来衡量这一标签是否有效。

    • 越有效的标签就越能让我快速地调取数据。 标签的用途多样,比如做知识分类的、识别来源的、情景和人物描述的以及表明时序的,等等。 ● 要注意知识范畴的培养。 例如,在电子商务中,我运用了各种分类标签, 其中有行业标签:B2B、B2C、C2C、外贸B2C、外贸B2B,最新的还有O2O;技术支持方面的标签有:大数据、营销方法、 用户体验、 微营销等。 ● 场景的标签我把它分为公司与人物,再加上时间。 可见,由时间链、共识面(公司、人物、来源)、 知识体系(标签)和格式(内容)所构成的一张知识图谱是解码决策分析的依据。

    • 数据分析师都有变态的数据洁癖,他们对数据的来源极为看重。所以,我将人和公司进行区别对待。人是特别的,可以离开某家媒体和公司,是流动的,但是如果我将数据管理定位在人之上,就是表示我认为人更重要。如果定位在了公司和媒体的背景之上,那么公司或媒体就更重要了。

    • 首先,你所选定的题目,一定要是你感兴趣的,或者跟你的职业相关的。比如你喜欢宠物,你要成为养猫的专家,你就会每天收集养猫的数据,当别人问到怎么养猫时,你就能很快地知道某个专家说过相关的内容。 其次,个人大数据管理和做大数据一样,一定要从小处着眼,比如说你的目标是要成为电子商务专家,这个目标在一开始就显得过大了。从我来说,一开始,我只收集海外出口的相关资料和数据,在这个小领域里形成了一个小的大数据循环,然后走熟这个循环,再涉猎手机支付行业方面,然后是C2C和B2C行业等。在经历过小的循环之后,我才允许自己去观察别的领域。现在,在别人眼里,我是一个数据运营的专家,其实我也是这样“混”出来的。即便是现在,我也在一直训练这个循环。 再者,就是尽量让数据的收集变得简单。当你发现有用的知识后,一定要跟自己说,不要多做思考先收集,现在就收集,不是明天,更不是后天。有人在讲PPT,有价值的内容立即拍下来,而不是待会跟他索要PPT。知识的收集永远都是“现在时”,而且这个操作越方便越好,越快越好。我的收集就很简单,设置一个热键一下就能够将数据抓取过来。 最后,你一定要把这个“运营数据—数据化运营—运营数据”的循环打通成闭环,也要利用今天社会化的优势,学会借助别人的力量。我认为这才是真真正正的大数据管理——形成一个有效的循环,形成一个可以不断获取数据和反馈的动态循环。可见,个人大数据管理能够为个人产生力量,让知识形成积累,成为你在人生道路上,从“命”到“运”最重要的分水岭(

    • 对于电商企业,衡量变动时需要有两个大的前提,一个前提是要保证数据是能够被有效地记录下来的,另一个前提是数据是能够被有效地解读的。

    • 如果说格斗中的稳定来自于动态,那么思考中的稳定就来自于变化环境下的不断反馈。

    • 所谓持续的反馈,就是在衡量的基础上,评价某一个变动到底是不是起到了很大的作用,并确定数据的变化确实是因为这次改变而出现的。

    • 我认为,未来的数据角色对企业而言就像决斗一样,如果两个人的水平差不多,多“算”的人就胜利了,而数据就是“算”的核心。

    • 在寻找战机和“算”的过程中,还有一个需要非常注意的点,即分析方法一定要客观和理性,在经验不是特别丰富的情况下,千万不能盲目地用数据去观察问题,要保持相当清醒的头脑,不能让潜意识迷惑自己。

    • 别人的主干问题不是你的主干问题,所以简单套用解决方案的做法可能会害死自己

    相关文章

      网友评论

        本文标题:读书笔记《决战大数据》

        本文链接:https://www.haomeiwen.com/subject/qhqjgxtx.html