基础设施、机器学习和可视化

作者: 卡布奇诺花蜜 | 来源:发表于2017-04-26 22:20 被阅读38次

    Big Data Requires a Holistic Approach. That Leverages Traditional and New Capabilities.

    如果你们仔细想想,一方面是Oracle和IBM的传统数据库(SQL),亚马逊有AWS,Hadoop栈。实际上有很多大数据分析来源于数据库和数据挖掘领域,这些都属于传统数据库分类。现在你们要怎么以非结构化的形式在PB数量级上来做这些呢?而且不只是基于那个部分,而是组合,人们在用那些工具而不同太担心底层的结构化或者非结构化形式,这就是真正普及化、民主化和商品化整个大数据基础设施的方式。我认为微软,实际上组合了SQL、Azure、PowerView、Power BI、Excel和Bing搜索中的所有传统优势。人们将会越来越多地关注到一件事情是,世界上的信息组合,把互联网上的各种信息汇总起来(阿里、百度、google、Bing等)。我认为特别是对政府和军队,肯定需要资源部署在自己的场地里(on premise),on premise意思是我购买我的服务器,我建设我的数据中心,我把我的数据放在我购买的服务器上,数据永远不会离开我的场地。云计算意味着你把你的数据和计算放在其他人的物理位置上。微软结合二者,可以实现无缝地将on premise和公有云结合。

    #Business Intelligence(BI)

    商务智能,我们说信号、数据、信息和知识,知识是发现洞见和采取正确行动的关键,它们会带给我们价值。

    Lifecycle of a Question,你有一个问题,然后做验证。如果验证成功,解决了问题,值得再问一次。你使得它成为可重复的,从而建立系统。如果不是,如果你的问题假设是错误的,那么你问另一个问题/假设。所以,这类科学方法和科学发现是一样的。

    在过去你需要一定的时间来完成这个完整的周期,比如你推出一个产品,要走出去采访客户了解客户的使用来改进产品。现在我们想要真正做的是缩短时间。相对于科学试验,我做100次试验的时间等于你做一次试验的时间,那么从结果来看,我的结果会更接近正确。因此我认为另一个看待大数据的方式是,所有这些大数据基础设施、分析以及工具,都是来帮助你以比过去的方式快得多的方式运行你的试验,完成一个闭环。

    所以机器学习、数据挖掘和分析,实际上就是大数据的核心部分。现在出现了一种叫做数据科学家和数据分析师的新职业,基础上他们是懂机器学习,会写一些代码的人(用脚本语言写一些代码,能够快速做试验),所以把数据科学家想象成能够快速做试验并可以交给老板结果的人,我们称之为干实验室(dry lab)。(如果有学生物基因工程的同学,会知道有干实验室和湿实验室)那么湿实验室(wet lab),基本上是做A2D(模数转换)和D2A的,需要把模拟信号转换成数字信号。需要采样,然后做某种操作,到定序器去,进行数字化。一旦模拟信号变成数字信号,就进入计算机科学的领域(干实验室)。

    Like COBOL,在商业世界向领导展示的最好方式就是可视化。

    At the end, data analytics are for the boss(decision makers).

    ---写于2016年1月13日。

    相关文章

      网友评论

      本文标题:基础设施、机器学习和可视化

      本文链接:https://www.haomeiwen.com/subject/azbwzttx.html