在现代科技发展的浪潮中,随着摩尔定律的应验发展、PC互联网和移动互联网的突起,不仅在各行业造成数据量的幂级上升,软硬件的发展也给大数据的收集、清洗、分析、应用带来了可能,一大批公司(互联网巨头、传统行业巨头和新时期的大数据公司)怀揣梦想围绕数据和数据应用展开了角逐,关于大数据的定义、应用、价值,企业与各界大数据大牛都给出了自己的独到见解,关于数据的算法使用、数据模型建设的重要性随着水涨船高,出现在大众视野,普及型大增。
图1 百度指数“大数据”搜索结果大数据既属于科技,同时科技的各方面数据又可以反过来为科技服务,所有的科技都只有在实践中实现应用、量产、商业化,才不辜负它的诞生,才能真正为人类生活带来福祉。身在专业做政企大数据应用的企业里,深感电子政务环境文化的浓厚与大数据应用发展与竞争的漩涡激流。
大数据应用按照使用者总的领域分为三个:政用、商用、民用。深度应用覆盖汽车、教育、医疗、科技、舆情、质监、公安等40多个行业。针对每个行业进行数据收集、需求分析,为各行业、各企业定制出个性化全方位的大数据应用系统。美国最著名的大数据公司Palantir曾帮助CIA成功通过数据分析找到了本拉登的线索,间接而无法推卸的导致本拉登被海豹突击队击毙;还曾通过对各个银行系统、数据交易系统的综合分析,帮助各个银行追回在华尔道夫诈骗案中被诈骗的几十亿美元财产;互联网巨头在数据方面对于竞争对手的抠搜、防护、保密、炫耀、对于数据在自家产品的深耕应用、将海量数据作为彰显企业竞争力和提高企业估值的企业资产、应用产生数据-数据反哺应用的正向闭环,如此种种,大数据的神秘力量早已经渗透在我们的生活中啦!
图2 大数据应用领域与行业本人作为一名大数据产品汪,就结合所“孕育并正在出生过程中”的政务科技大数据产品从四个角度(应用策划、方法论、项目方案侧重点、应用点集合)阐述一下大数据应用方案的设计与实现:
一、 应用策划:
1. “巨人的肩膀”:行业深耕本身的积累与应用洞察,对于大数据应用已经打造的一套通用方案作为底座,通用的方案包含了:舆情分析、预警系统、数据分析维度策划、数据可视化呈现方案、数据安全保护、算法模型随时待命、数据存储分析框架的软硬件配置。
2. 数据收集:“巧妇难为无米之炊”,大数据应用的资产是数据,在政务科技方案,需要收集政府部门的内部业务数据、相关部门的关联数据,围绕这些数据,收集PC互联网和移动互联网、新闻资讯、科技行业报告、国际国内科技行业情报、微博、微信、QQ、知乎等社交平台的科技舆情数据,国家整体各省市科技发展分析数据。
3. 行业特性:科技政务数据具有鲜明的行业特色,需要响应国家科技发展策略,要紧随科技发展大趋势,充分调动地区各科技企业、研究机构、高校的高度重视和积极行动,及时保障各行业科技人才的持续输出与培育,同时对科技专家既敬重又进行信用监督,不仅要推动科技项目的绿色申请与进行,又能保障科技项目的质量,对于项目给予的资金支持,量入为出,做一个尽职的管家婆。根据这样的特性,在方案的设计上,基于数据的收集,基于行业特性,给出一个全面有效的规划。
4. 客户需求:设计方案的第一要素,“这个设计给谁用”至关重要!满足客户实际应用需求,是设计方案的基础,产品能够投放使用并且创造价值是设计方案目标!围绕目标用户,描绘用户画像,调研用户需求,坐在客户的位子上,从客户角度进行思考,将客户喜欢的产品体验、风格、实际需求对已经设计出的方案进行细化描绘。
二、 方法论:
1. 模块化:不仅在代码编写上对于功能进行模块化开发,方案也可以从功能角度进行模块化划分和设计,一个一个的功能方案模块不仅方便复用移植,在客户不想要某个功能模块的时候,可以方便删除,而又不影响其他的部分,模块划分清晰明了,低耦合高复用。
2. 任务包与任务节点:方案的实施一样需要量化,设计好的方案按功能分成不同的任务包,每个包中再划分小的任务节点,方便估算方案实现的人力、物力、时间。
三、 项目方案侧重点:
1. 初期需求采集:初期阶段,要发散思维、开脑洞,根据客户需求确定数据生态模型建设,在持续进行的数据收集工作结束之前,假定所有的数据都是可以获取的,对于功能方案设计要尽善尽美,尽量全方位挖掘数据价值,汇总数据展示维度,根据数据应用分析,匹配适宜的可视化方式。
2. 项目方案初步定稿:项目方案定稿之后,将项目方案结构分成多个任务包,每个任务包再划分多个任务节点,立项之后,根据方案建立项目组,找组员组队打怪了。
3. 项目开发实现过程中:一个是数据实际情况,要根据收集数据的齐全程度以及维度,对方案设计进行微调与优化;要打破各业务部门之间的信息孤岛,实现数据共享;要对历史数据进行收集;这些都并非是容易的事情。数据丢失,各部门数据格式不统一,数据冲突,存储数据由于人力硬件等原因,明确的只有一部分,在对数据清洗、去噪的过程中,对数据进行加工又是一个繁琐慎重的工序。
另一个是客户需求,期初的客户需求都还在想像阶段,是脑海中的完美演绎,这个跟买衣服一样:想象中穿上会好看,但只有真试穿后才知道是否漂亮。在开发过程中,在每一个小任务点完成后,交给客户再次确认,这个实际的体验是否是他们想要的,根据客户需求对方案不断优化调整是个必经的过程。
4. 项目验收:项目整体完成,设计方案成果终于变成现实中的样子,当所有的功能点和客户的需求碰撞在一起的时候,都会出现调整,尽量满足客户的应用需求的同时,也要考虑到数据本身的特性,积极沟通,使项目顺利完成。
5. 项目上线:孩子出生后,放出去跑一跑,看看四肢是否健全,是否人见人爱花见花开,不管是方案还是产品,实际的反馈都是一个成长,对这些反馈进行记录,一方面在产品的迭代更新中择优上新,一方面反哺到方案,进行项目总结和方案设计总结。
四、 应用点:
1. 数据监测:数据的产生是实时的流动信息,对数据实时监测,实时显示各方面数据的变动、科技项目数量、项目进度和负责人、项目的预算和产出、科技企业的科技成果与商业实现。
2. 数据对比:科技发展的国际趋势、国内趋势、某地区趋势,当三条数据线放在一起时,对比的戏剧化效果就出来了,通过从时间和地域两个维度,对数据进行横向纵向对比分析,数据和目标数据的可视化对比,给客户提供有效的决策支撑。
3. 未来预测:在海量的历史数据中得出数据之间的相关关系,通过算法模型将关系表达出来。历史都是循环往复的,当同样的数据异常波动出现时,我们就可以知道接下来会发生什么,应该采取怎样的措施应对。
4. 预警系统:我们对于系统的运行设置一些正常范围的阀值,当超出正常范围,发出预警信号,不同的程度使用不同等级的预警信息、预警强度、颜色标识,发送给不同等级的相关部门负责人处理,能及时引起重视,控制事态,找出原因。
5. 舆情系统:“听见群众的声音”,实时监测舆论,企业和工作者的正负面舆论评价,舆论的来源、发布者、牵扯利益方、舆论导向、舆论影响力、舆论浪潮势能。客户能及时控制,及时了解底层信息。
6. 定向服务:不同的业务部门关注的点是不一样的,业务职责的不同造成他们观察世界的角度不同,除了通用的数据展示之外,根据不同的需求和观察维度,定制设计出不同的数据挖掘方式、分析角度、展示方案。
7. 数据权限保护:数据安全和隐私保护是一项重中之重,是数据共享开放所带来的硬币另一面,对于数据设置权限,对于功能模块设置权限,不同的业务部门、不同的人员角色看到的只是自己权限范围之内的数据、不同的功能模块。
以上是对于产品工作和方案工作综合的感悟,大数据的设计和实现是一个奇妙而充满挑战的过程,科技之美的乐趣与甘苦也正在于这样翻越一座又一座的大山的过程中。
网友评论