大数据文摘出品****作者:魏子敏通信大数据行程卡小程序,相信大家都不陌生。疫情期间,它不仅是人人手机里必备的小程序,也是外出的必要通行证。
image今年4月,为了应对企事业单位的大面积复工复产,并且准确掌握居民个人过去14天的行程,全国一体化政务服务平台上线工信部推出的“通信大数据行程卡”服务,并将行程卡信息纳入全国一体化平台“防疫健康信息码”服务。用户在信息码服务中申报行程即可查询和证明本人近14天的到访地,不再需要另外开具证明。在工信部统一组织下,三家电信运营商很快实现了数据整合,为疫情期间的出行和公共健康的防疫管理作出了重要贡献,包括中国移动在内的多家国内主要运营商都参与其中。但很少有人知道,整个项目从开启到初版上线其实只花了不到一周。上个月底,带着对相关团队的好奇,大数据文摘采访了中国移动信息技术中心大数据平台部副总经理尚晶。她所在的中国移动信息技术中心负责中国移动全网IT系统统一规划、建设和运营,今年还加挂了中国移动大数据中心的牌子,按“一套人马,两块牌子”运作,目前负责大数据相关工作的团队有近200人。这个团队可以说是中国移动大数据的一支“集中兵力”,不仅负责中国移动集中化大数据平台系统和应用的建设运营和分析支撑,同时还肩负组织各省近400多人的大数据团队,推进全网大数据工作的职责。疫情期间,正是这支数据团队,带领中国移动31省大数据精英,与时间赛跑,有效的支撑了疫情人群迁徙、行程查询、复工复产分析等各项工作,累计提供疫情防控分析报表上万张。而能在短时间内完成这一切,一个高效的大数据平台和数据团队必不可缺。
20年建设经验,数据团队建设“划重点”
中国移动大数据建设还得从大数据系统的前身——经营分析系统开始谈起。我们从中国移动大数据中心了解到,中国移动的经营分析系统建设从2002年开始,技术上采用数据仓库。当时大数据这个概念还没有出现,考虑到初期投资成本较大,国内数据仓库系统的建设主要是电信运营商、银行、保险公司这些百强企业。然而随着数据量爆炸性的增长,一方面Oracle、db2等数据仓库在存储PB级数据上开始显现扩展性不足和非结构化数据处理能力不足的问题,另一方面昂贵的价格,也逐渐成为一个亟待解决的问题。投资收益率的问题开始越来越多地被问及,2007年中国移动研究院首先开始跟进Hadoop的研究,2009年,中国移动开始在省级系统上热火朝天的开始新兴MPP技术、Hadoop技术的试点和大数据平台建设。这个时期也是互联网公司开始从IT时代向DT时代演进的前夜。与运营商的审慎探索不同,互联网企业的成本压力和技术实力,促使他们更快的拥抱了开源体系,例如2009年阿里的云梯1和云梯2项目。“这不仅仅是一个技术变革和颠覆,背后更是一个生态变革。”意识到这个问题的中国移动在2015年明确了大数据建设的组织机构,大规模推进集中化大数据平台的建设,并推进自研BC-Hadoop在现网的落地应用,单集群规模迅速从300台扩展到3000台,整体规模达到2.5万节点,集团大数据平台的采集数据量从2015年的20TB/日,到达1.9PB/日。应用领域上,更是从决策支撑+营销支撑为主,不断向外拓展,内部深入到企业运营的各个领域,包括精细服务、产品创新和高效运维等,向外拓展金融、旅游、交通、零售、安全等多个垂直领域合作。尽管系统建设速度和应用构建速度较之之前近乎按数据级提升,但是“还需要大数据支持”的声音仍然在中国移动的各个层级的单位机构中此起彼伏,2017年开始,集中化大数据平台开始小规模的推广大数据PaaS开放模式。这个开放平台被命名为“梧桐”平台,意在“梧桐花开,凤凰自来”,提供储算资源、大数据处理工具、全网汇聚数据和安全管理能力,向内部各单位开放赋能。
image “梧桐”平台一经推广,得到了巨大的响应,短短一年内就从几个单位入驻,迅速实现了50个覆盖省公司、专业公司的数百个项目的入驻。而与此同时变化的是,这个数据支持团队,也悄悄的拆成了大数据平台部和大数据应用部两个部门,两个部门均在近百人团队,以适应更为开放的服务生态。从“授之以鱼”的应用提供方式,到“授之以鱼”+“授之以渔”结合的方式,需求部门可以自行选择“买鱼”还是“买船自己出海打渔”。在中国移动大数据中心,这些变化也是在对大数据工作各种困惑的思考中,不断摸索优化推进的。所有的努力从更理论一点的角度看,其实都是在思考如何将国家新明确提出的“数据要素”真正做到要素化,让数据能安全的流动起来,流动到所需要它的地方,流转到企业内部每个需要数据赋能的环节,也包括数据要素在跨行业合作中产生“化学反应”,创造新的产品、新的价值。目前梧桐已经成为中国移动数据中台的品牌,引入更多的新技术提升数据中台的计算效率和实时性,提高数据中台开放敏捷性、易用性,加速应用创新是目前团队考虑的主要问题。 image平台搭建好之后,数据团队需要进一步考虑的就是如何衡量大数据的价值。尚晶表示,这个问题是从经分时期就一直在被问的问题,但或许到现在也仍没有一个完美的答案,目前主要有以下几个考量角度:1. 渗透行业领域的广度考核,比如金融行业、零售行业、交通行业、旅游行业、公共安全行业等行业,形成了哪些赋能应用。2. 带来的经济价值或者间接经济价值,例如由于采用大数据,同等营销资源投入下,营销成功率的提升,大数据分析发现的收入漏损,大数据直接产生的政企行业合作收入。较难计算的是间接经济价值和拓展行业的机会成本,例如企业专线销售与打包的大数据服务,收入占比较难衡量。又如基于大数据分析,面向市场设计的产品,多少价值应该计入大数据带来。尚晶也给我们举了个例子。普通的营销方案成功率可能就在1%,在流量市场这个比例甚至更低,但无论营销成功与否,营销成本还是需要花费的,比如外呼人员成本、短信端口信息成本、优惠券成本,这些都是成本消耗。如果采用大数据分析,可以得到一些更精准的目标群体,根据这些有针对性的有效目标群体做营销,成功率就会从1%上升到5%,提升了5倍,同等成本获取了更多的营收。公司给的营销费用要和成本费用一样,需要和收入一起纳入考核。
辅助业务部门决策,分析师要懂业务更要懂用户
大数据可以发挥价值的角度多种多样,这一点毋庸置疑。但聚焦到辅助业务部门做“数据驱动”的决策这一工作上,中国移动也探索了自己一套行之有效的运作方式。我们从中国移动大数据中心了解到,中国移动大数据中心有一个分析师团队,他们除了为市场等业务部门提供各类分析数据,还会基于数据去深度挖掘业务中存在的问题。这个分析师团队目前大概有20多人,每周为公司领导提供覆盖全网、不同角度、不同领域的分析,这种分析有效对公司高层的决策起到很好的参考支持作用。例如在市场竞争中,中国移动部分省公司的客户流失率或价值流失影响很大,那么数据团队就会去分析,为什么流失率这么大,省间差异的原因?移动能与其对标的产品套餐是怎样的?主要流失用户的特征是怎样的?如何发现客户在离开之前的行为异动,及时沟通挽留?又如中国移动咪咕阅读的推广,如何将用户分类,青少年、中年人等人群的阅读喜好,如何分析竞品业务数据?如何引入更好的内容,并精准推荐,保持用户粘性。除了集中的分析团队,中国移动在各省和专业公司内部也在推进业务与大数据分析的融合团队,发挥整体优势,面向实际业务运营,充分发挥大数据价值。例如中国移动向用户提供2018央视世界杯新媒体直播权益推广,数据团队就会将世界杯比赛时间和球队粉丝的活跃度进行关联,并挖掘其中的必然联系,用其中的联系特征来做营销方案,并根据用户人群进行有效划分和推送。比如是青少年,那么应该推送应援物资的售卖渠道,如果是中年人,那么应该注重的是中年人更为关心的内容,进球精彩瞬间等。又如5G营销,各省也是先进行了客群定位,对客群和潜在市场进行分析,再制定营销计划,包括做营销的排期,营销的资源投入,营销渠道的资源顾客。推送之后,可能会产生沉默用户,这个时候再做沉默分析,比如分析出时间不对,一边采用大数据分析结果一边调整。“做分析必须要懂用户心理。”比如说中国移动的花卡推广,面向的是热爱娱乐的青年群体,分析师需要从青年群体的喜好角度去分析,才能充分获知用户购买动机,更倾向的优惠促销品,洞察业务设计中合理性。在懂得用户心理与需求的情况下,分析师需要更为多元以及完整的数据。分析师除了要做分析以外,还需要对业务深入理解,分析师会需要一些来自数据团队的支撑,比如对业务数据的解释以及根据数据得到的建议。在中国移动除了分析师团队,还在打造数据团队,两个团队以数据需求为纽带形成持续的数据应用与探索+新数据引入与治理分工协作的良性循环。用户行程分析,数据安全如何保证?除了分析用户的喜好和日常来分析业务,疫情期间,为了公共安全和安全防疫,中国移动的数据团队也全程参与了通信大数据行程卡项目。通信大数据行程卡是基于用户位置数据的,因为数据相对敏感,在技术保障和用户授权问题上,中国移动的数据团队也时刻把用户的隐私数据放在第一位。中国移动大数据中心的处理方式有以下几个原则,首先根据网络安全法,采集数据使用数据必须都得到用户的授权。用户的授权体现为用户入网的时候的协议和合约,移动为用户提供服务时会采集一些数据。在使用用户数据时,会再次请求授权,并明确告知数据用途,比如像采集用户对内容的喜好以及相关的数据,根据这些数据对用户做一些推荐,如果没有用户的授权将无法运用数据。用户可能已经留意到行程卡等用户数据查询,都通过短信确认码或要求输入身份证后4位,作为用户二次确认依据。除了在用户授权和安保措施以外,中国移动数据团队对数据安全也有做非常多的技术方面的措施。数据在系统里均为加密存储,并按需进行了模糊化和脱敏处理,数据访问权限按最小授权原则,数据操作遵守严格的安全审核审计金库管理模式。数据分析人员无法了解数据与真实用户的关联,因此可以保证对个人客户隐私数据的充分保护。
给好的数据团队下个定义?
采访的最后,我们也请尚晶给“好的数据团队”下个定义。尚晶告诉我们,其实她一直在思考这个问题,回答好这个问题才能明确团队未来努力方向。 image但这不是一个容易回答的问题,需要放到快速变化的、公司内外部、技术与生态的环境里去思考。一个团队成功要有别人难以超越的长板,但是一个团队的长久成功需要没有明显的短板。“对于成功的数据团队,有很多取得共识的分享,包括从组织上、管理机制上、技术水平上、数据能力、应用价值、行业口碑、市场收入上,数据中台的争论已经有各种反转又反转。归根结底还是成功的中台经验是相近的,而失败的中台各有各的失败,也就是短板”。回归到IT本职和她所从事的大数据中台工作,尚晶希望从三个层级去描述大数据的评价体系:“数据融合”、“开放共享”、“赋能创新”。
- 数据融合:数据覆盖范围是否充分?是否建立完善的数据管理体系,有效保证数据完整性、可靠性和及时性?是否有先进的技术架构,有效捕捉业务数据,实现高效储算并敏捷为业务提供数据服务调用?
- 开放共享:是否适应复杂的需求场景?是否有适配公司的组织机构的开放模式?是否有高效的复用度和支持度?是否有开放的数据字典,可为使用人员充分理解?是否有丰富、便捷部署,易用性好的工具?是否有敏捷的、有SLA保障的开放流程?
- 赋能创新:是否能有效赋能公司的目标市场,就中国移动而言即CHBN四轮市场?是否有助于公司创造新的增长点?是否彰显国企服务民生的担当?
这也是中国移动大数据中心对数据团队未来发展方向的期望。尚晶认为数据团队首先还是要配合业务的发展,需要对行业进行深入挖掘和分析,还有对客户群体的深入分析,满足客户不断增长的新需求。“中国移动的大数据,发展潜力还很大,还有很多值得探索,做深做广的领域,未来中国移动集团公司也要求在数据团队加大人才培养力度,建立更加灵活的机制选聘行业专家加盟,共创未来。”
网友评论