译文来源:Becoming a Data Scientist - Curriculum via Metromap
Swami Chandrasekaran 整理并设计了一张如何成为数据科学家的学习线路图,其中包含了各种领域及其主要技术,如果你想朝这个方向发展,这张图就很值得参考。
数据科学,机器学习,大数据分析,认知计算等相关主题的文章、介绍所需技术的信息图和各色观点,早已铺天盖地的向我们涌来;但显然有一件事是肯定的——数据科学家不是一夜之间炼成的,这是一个富有挑战的过程。那么你可能会问,究竟如何成为一名数据科学家?从哪里开始?又如何知道自己快要抵达终点了?有没有一个具体的学习线路图?有哪些工具和技术是我应该掌握的?怎样才能知道我已经实现了这个目标?
尽管可视化是数据科学中相当重要的一环,可笑的是我却没能找到一个真正实用的展现如何成为一名数据科学家的可视化图表。所以我自己尝试着建立了一个大家可以在成为数据科学家的旅程上使用的学习清单,灵感来源于地铁线路图,因为正好可以用来表示我总结归纳出来的学习进阶路线,分别包括了一下几个领域的内容:
- 基础知识
- 统计
- 编程
- 机器学习
- 文本挖掘/自然语言处理
- 数据可视化
- 大数据
- 获取及导入数据(Data Ingestion)
- 数据清洗(Data Munging)
- 工具
每一条地铁线路都是一个领域,而地铁线上的每个站都是领域中的一个主题,且这些主题是按照“必学-应该掌握-需要理解”的层级排布的。当你想选择一个领域开始学习时,就从起点出发,一个个主题进阶地学习,直到到达该路线的终点,或转换到下一条路线去学习另一个领域的内容。我有意给这些地铁线(领域)分配了1-10的序号,这样你就知道学习的顺序是什么。如果你是一个初学者,不妨将这张图作为个人的学习计划,并从中发掘自己最感兴趣的,想要发展的领域和方向及其所需的技能。
这张图里列举的软件及工具都是以开源的为主,因为我希望尽可能避免加入商业性工具。当然如果你自己拥有一些商用工具,比如 IBM SPSS 或 SAS Enterprise Miner,你也完全可以使用这些软件来代替图中的开源软件。
译后记:原文末尾作者提到,如果时间允许会考虑把这幅图利用D3.js或InfoVis转化为交互型图表。鉴于图中含有大量英文,等时间充裕时我也会争取把图片翻译重制,或是制作中文版的交互可视图。但由于图中多数是专有名词或工具名,即使不翻译较易理解或者不宜翻译成中文,相信英文版也不会太影响使用,故暂不作翻译。
网友评论