近几年,大数据被广泛应用于各行各业。从早期的一个高精尖的工业新星,到如今变成了一个世人皆知的营销词汇。各种论坛、会议,开口必谈“大数据”,不说两句“大数据长、大数据短”的,都不好意思说自己在IT界混。从某种程度上来说,大数据这个圈太乱了,被“妖魔化”或者说被“神话”了的大数据,给圈内圈外人都带来了一些误解,今天就一些常见的“大数据误区”,跟大家初步讨论一下。
一 圈外人所“误解”的大数据
大家有没有这样的发现,你可能前两天刚通过手机在某宝逛了一圈,想买一件“碎花连衣裙”,而这几天,当你在刷着抖音或者刷着新闻消磨时光的时候,时不时就能刷到一条广告,给你推荐好看的“碎花连衣裙”。诸如此类情况在日常生活中时时上演,于是大家会有一种错觉,大数据已经把我们包围了,我们的一切大数据都知道,大数据能够精确的知道我想要什么,大数据能够明确地告诉我们该怎么做等等。
我想,揭开一下被如此“妖魔化”了的大数据的真面目,将有助于我们对其进行正确的认知。
优点已经为大家精心准备了大数据的系统学习资料,从Linux-Hadoop-spark-......,需要的小伙伴可以点击进入
1大数据仅仅就是大量的数据
很多人将大数据简单地认为是大量的数据,因为人够多,收集到的信息够多,需要很多很多的空间来存储,需要很大很大的“计算器”来进行计算,所以才称为“大数据”。实际情况远比这要复杂,这里面包含了各种数据存储技术、计算资源分配技术、计算引擎处理技术、机器学习算法、个性化推荐、搜索、计算广告等等。不同于简单的数据统计,数据统计仅仅是针对已经发生的事情分析表现,而大数据不仅可以通过分析历史数据,呈现数据表现,分析具体原因,最终得出结论,它往往还可以针对尚未发生的事情做出预测或者通过推荐帮我们解决决策和选择的问题等等。
大数据具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特性:
2互联网公司能获得所有的数据
我们从没有像现在这样能获得如此多的数据信息,平均每个人一天所接触到的信息量能抵得上十五世纪的人一生所能接触到的信息量。实际上,目前各大公司使用大数据实际处理的信息量仅仅只是“冰山一角”。原因有多个方面,首先,要想获得某一方面相关的所有数据,对任何一家公司来说,获得信息的途径,技术,相关的许可等等,都面临巨大的挑战。其次,即使数据都有了,目前还没有任何一家公司能够存储、处理或者检索某个主题相关的所有数据的能力。
>need-to-insert-img
3大数据会给出明确的答案
大数据会给出一个个具体的数据指标,却很难针对一个问题给出明确的答案,因为实际利用大数据处理后的信息去指导商业决策时,会遇到各种各样的问题。大数据并不能准确的告诉你该如何部署新的产品形态、如何进行新的广告投放、如何更好的实现拉新促活......因为各种各样的不确定性因素摆在眼前,想完全的消除所有的不确定性,目前的大数据发展程度还远做不到这一点。大数据能做的就是尽量的减少不确定性,尽力去理解用户,去评估现状,去预测未来,从而实现决策支撑。
优点已经为大家精心准备了大数据的系统学习资料,从Linux-Hadoop-spark-......,需要的小伙伴可以点击进入
4算法是万无一失的预言家
大数据算法,机器学习,人工智能,这些高大上的词汇一出,是不是感觉一下子就高精尖了。但一个算法即使使用了最高大上的模型,进行了最精确的计算,却还是不能万无一失的做出最精确的预测,甚至有可能失之千里。原因很多,比如脏数据的混入,数据量本来就不够等等诸多客观原因,还有就是算法工程师普遍面临的挑战,那就是如何准确地将业务问题转化为数据问题。实际工作中,在讨论一个问题时,有时候有可能业务人员都没思考清楚,或者是没表达清楚,有时候是算法工程师理解有偏差,又或者是所选择的模型根本就无法刻画事物的本质等等,所有的这些都会导致算法最终的结果不可能百分之百精确。因此,如何实现最小的预测误差,实现全局最优化,是目前所有算法工程师所不断追求的。
二 圈内人进入的大数据误区
如果要问,大数据圈都有哪些人,估计大家的第一反应是大数据分析师啦,大数据架构师啦,算法工程师啦,巴拉巴拉......那么,从某种意义上,即使是作为IT行业的你,就已经进入了对大数据认识上的第一个误区,那就是对大数据圈的狭义定义。笔者觉得,大数据圈必须包括实际工作中,利用大数据的产出进行工作指导和决策的业务人员才算完整。
那么,包括业务人员在内的圈内人,对大数据工作本身的一些误解现象,在刚入职场接触大数据行业的职场“小白”们身上,表现得尤为明显,笔者结合自身目前一些粗浅的认知和大家分享一下。
1业务部门眼中的大数据误区
拉数据、出报表、查bug,这是与大数据部门对接最为频繁的业务小哥哥小姐姐们很容易给大数据小伙伴们定义的工作性质,那是因为大多数时候与业务人员打交道的,都是数据分析人员,而拉数据、出报表、查bug是数据分析人员的日常工作中的几项基本工作。但如果认为大数据小伙伴们的日常工作仅仅如此,那就真的是深深的误解呀!
至少数据不是天上掉下来而是数据工程师们收集处理出来的呀,关于整个数据从收集到做成可视化报表的完整过程,本文就不再赘述啦,大家可以关注本公众号,查看笔者的另一篇文章《新晋“小白”眼中的大数据世界》,看完你就明白为了得到一份最终可用于上层业务支撑的数据,包括大数据架构师在内的大数据小伙伴们,需要付出多少心力啦!
而且,实际上,算法推荐、机器学习、人工智能等这些方向才是大数据部门真正发力的方向啊。
2大数据部门“小白”的认知误区
三年后,代码我要敲得咔咔响,各种语言我要任意耍,五年后,各种算法,各种定理钻研再钻研,闭门修炼,直至深入骨髓,成为高精尖。从职业规划和个人成长的角度来说,这么努力,这么钻研,三五年后,你应该能如愿成为“高级工程师”。
但是,如果从工作产出和对公司产生价值的角度来看待,某个方面,而且是很重要的一个方面,很容易被刚入职场的“小白”所不屑和忽视,那就是花时间花精力去认知你面对的业务,去结合你实际面临的业务问题,去认真思考你如何通过大数据来为公司、为用户做出贡献。
不能只想着如何使用上最牛叉的模型,往往合适的才是最好,而怎样才是合适的,实际业务场景决定。不能瞎跟风,别人怎么改底层代码,你也去改一改,就因为这样做显得够牛叉。别人一二三四步做了用户画像,你也依葫芦画瓢去做一做。如果你做出的任何一项产出,最终实际没有对业务起到任何的指导作用,甚至还产生很多疑点和误导性信息,那么整个项目做的再完美,报表做的再漂亮,实际价值还是0,等同于你什么都没有做,甚至说,还不如不做,因为你浪费了公司的人力资源。
优点已经为大家精心准备了大数据的系统学习资料,从Linux-Hadoop-spark-......,需要的小伙伴可以点击进入
即使是跟业务打交道最少的大数据架构师,我想都是有需要去深刻了解业务的必要性的,牛叉的架构师,至少应该要做到,去一家公司,就有义务将整个底层也好,整个框架也好,根据公司的实际业务场景将一切改动为最适合配置,而不是,无论去哪家公司,面临哪种业务场景,都是一套流程咔咔咔,结束。对数据分析师、算法工程师来说,紧紧抓住业务去开展工作的重要性更是不言而喻。
大数据部门是公司的决策支撑部门,是一个服务型部门,只有服务好了用户,服务好了公司,一切才是有价值的,良好的业务意识非常重要。
总而言之
大数据与业务紧紧相依,它们是彼此密不可分的好朋友。
码字不容易,帮忙点个赞,点赞关注是我写作的动力,谢谢!
网友评论