“云”对于数据科学家可谓天赐之物。首先在“云”上能够获取数据和信息,同样也能存储它们,放在一个中央存储系统中。在“云”上,不仅可以绕过所使用的计算机及系统的物理性限制,而且可以部署高级计算机的分析和存储机制,而无需在自己的或本公司的机器上。“云”不只可以存储大量数据于服务器上,还可以部署非常高级的计算算法及计算力以满足高性能计算,而这也不必在自己的机器上进行。简而言之,“云”带来的第一个便利之处就在于存放大量数据集,同时可部署算法对数据集进行分析。“云”带来的另一个好处是,多个实体可以对同一数据同时进行操作。假设你和你的同事分布在不同的国家或地区,仍然可以对同一数据进行处理,因为信息、算法、工具、答案以及结果,都可在一个中央区获取。
使用“云”可使你快速获取Apache Spark等开源技术,并且不需要在本地安装和配置它们。使用“云”还可以让你访问最新的工具和库,而不用担心维护和确保它们是最新版本的。另外,无论何处、不管哪个时区,都可访问“云”资源。
不论是笔记本电脑、平板电脑甚至手机,都可以在其上使用基于“云”的技术,实现前所未有的协作。多个合作者或团队可同时访问数据,共同开发解决方案。一些大型科技公司提供“云”平台,使人们能在预先构建的环境中熟悉基于“云”的技术。IBM有IBM Cloud,亚马逊(Amazon)有AWS(Amazon Web Service),谷歌(Google)有谷歌云平台(Google Cloud)。IBM还提供SN labs(Skill Network labs),学习者可通过注册获取权限访问诸如Jupyter Notebooks和Spark集群等工具,以便创建自己的数据科学项目并开发方案。要解锁“云”是如何显著提高数据科学家的生产效率,需要不断的练习然后熟悉这个过程。
网友评论