作者:京东金融-技术研发部-数据部-运营分析部 机构负责人 李龙
目前我在京东金融负责对接金融全业务线的数据分析。结合我个人在学习数据分析和面试的经验,试着回答一下楼主的问题。
一、数据分析学习到什么程度可以找工作?
这个问题要看你准备面试的公司,具体情况差异较大。所以我只能从自身真实经验中总结一些建议,给出一些最基础的知识结构,供楼主参考。
首先,我觉得优秀的数据分析师应该具备三方面的素质:
数据分析技能;
对业务的理解;
独到的分析思维和表达;
当然,只要具备基本的数据分析技能就可以尝试找工作了,可以在工作中逐步培养和提升后面两项素质。
如果你的专业是非计算机或统计专业,所以相对来说要多花一些时间补充最基础的技能。你现在在学的R语言没有问题,只是我认为可以先把基础打牢,再学R也不迟。因为R语言的应用过程中会涉及一些统计学的概念,如果对统计学有所了解,学习R的效率也会加快。
我个人的学习路径是这样的:
1、统计学
学习最基本的统计学知识。
我认为统计是数据分析的基石,统计分析可以解决日常大部分的分析需求,所以强烈推荐楼主先从统计学开始。
了解概率、分布、抽样、线性回归、时间序列。
推荐书目:《商务与经济统计》。
这本书的特点是案例很丰富,讲解通俗易懂,非常适合零基础的读者。
2、Excel
熟练使用Excel。
Excel的功能非常强大,各类函数非常丰富,尤其是数据透视表的功能一定要用好,你的分析能力会得到迅速提高。
推荐书目:《谁说菜鸟不会数据分析》。
这本书不只是介绍Excel的功能,更重要的是介绍一些实践场景中数据分析的步骤和思路,对于初学者有一定指导意义。
3、SQL
有了前两项的技能,你已经可以做一些初级的数据分析工作了。只是,Excel的局限在于数据量的限制。当你要分析的数据超过百万级别的时候,Excel就力不从心了。
这时候需要数据库来解决,而从数据库中获取数据要依靠SQL语言。
可以把MySQL作为学习对象,简单了解一些数据库范式设计等基本的数据库原理,重点学习SQL语言。可以自己安装一个MySQL数据库实践操作练习。
推荐书目:《MySQL必知必会》。
重点学习Select、聚合函数、关联查询等内容,系统管理方面可以忽略。
4、Hive
具备了SQL基础,就可以考虑向大数据方向进军了。
了解Hadoop生态圈,理解HDFS的原理,重点学习Hive。
Hive就是为了让数据分析师能平稳过渡到大数据领域而诞生的。
只要你会SQL,就可以通过Hive查询Hadoop中的数据。
推荐书目:《Hive编程指南》。
重点看HiveQL的数据操作、查询、调优部分,系统开发部分对于数据分析师应用的场景较少,简单了解即可。
5、数据挖掘、机器学习
这部分可以选择性学习。因为统计分析基本可以解决日常数据分析工作的70%-80%的需求,而且数据挖掘和机器学习的难度较大,门槛略高。
这部分主要是了解数据挖掘和机器学习的基本概念和理论。比如:分类、聚类、回归、决策树、贝叶斯定理等。
推荐书目:《数据挖掘概念与技术》;《机器学习》。
同时选择性学习R或Python。
推荐书目:《R语言实践》;《利用Python进行数据分析》。
语法只是基础,重要的是找一些具体的例子进行实践练习。
以上就是最最基础的数据分析基本技能了。
如果从零开始学习,可能需要3-6个月的学习时间。基础较好的话,2-3个月就能基本掌握。
当然,要精通还需要大量的实践才能积累更多经验。
此时,你已经具备了面试数据分析师的基础,但是否面试成功还要找准目标和定位,以及行业知识储备和工作经营等。
二、初级的数据分析会做哪些工作?
每一个数据分析师都有这样的理想,通过自己慧眼在数据的沙漠中找出宝贵的金子,或者自己的分析结果被决策层作为依据成功创造了大把利润。
但此时我们离这些目标依然有很长的路。
初级的数据分析中最常见的工作有三种:数据提取、报表开发、撰写分析报告。
数据提取将会是你的主要工作,也是一切分析的基础。
不夸张的说,大部分分析项目中80%的精力都在数据获取和加工的阶段。
从数据库中想尽一切办法把数据提取出来,看似并不复杂,但对你的SQL功力是个考验。
有时候一个over函数可以节省几百行的代码,一段SQL的优化可以提高十倍以上的效率。所以踏踏实实的把数据提取做好,不要认为这个毫无意义。
当你可以高效准确的把数据提取做好之后,就可以着手进行报表开发的学习:将常用的数据提取固化下来,形成表格或可视化的图表。
这时候你会发现之前学习的Excel和数据库设计等知识要发挥作用了。
需要进一步学习BI方面的基础知识,了解什么是星型模型、数据仓库、Cube等。推荐一本《数据科学与大数据分析》。
Excel也是可视化工具,但只能在单机上查看,所以更多时候会学习一些报表开发工具或可视化分析工具,比如:PowerBI、Tableau等。在网上可以搜到这些工具的视频教学,下载试用版自行练习就行。
撰写分析报告,就是把众多报表组合成一篇可以让人读懂的PPT。
这时候考验的就是你的PPT功力了。一份好的分析报告除了简洁和漂亮的PPT,更重要的抓住主题、清晰的分析思路和有价值的结论。如果你还能够生动的把PPT的内容讲出来,那就更完美了。
做好了以上三个方面,恭喜你,你应该已经成为了一名略有小成的数据分析师。
三、数据分析有什么小方向吗?
数据分析的小方向比较多,分类方法也不尽相同。在这里我根据技术要求的侧重点不同,简单的划分为三个方向:
1、BI方向
BI的概念已经出现很久了,但仍然不过时。
重点在于如何设计高效的数据模型,以及如何通过BI工具从多个角度观察数据,了解数据内部的规律。
传统的BI工具可以满足大部分传统企业的数据分析场景。近些年随着分析工具功能日趋强大,大数据领域的BI平台也有了长足的发展。
所以我认为BI仍然具有强大的生命力。
2、机器学习方向
机器学习与BI的区别在于,更多的依赖机器模拟人类学习的过程去发现数据内在的规律,构建一个数据模型,通过某些算法来预测未来的可能性。
机器学习和深度学习概念非常火热,但相对入门门槛也较高,因为想真正理解那些算法的原理需要高等数学的基础。
3、行业分析方向
还有一些数据分析师,仅仅通过一些公开的市场宏观数据,通过经济学和统计学分析方法,观察经济的运行状况,从而发现行业的经济发展规律,进一步预测未来行业发展的趋势。这个方向也很不错的,但是需要对统计和经济学有一定基础。
四、想要深度做数据分析有怎样的建议
你想深度做数据分析领域,首先要认准自身的优势,参考上面列出的几个发展方向,选择其一进行深入的学习和实践。
如果你的计算机基础比较好,擅长SQL和BI工具,可以向着BI方向发展;
如果数学基础比较好,可以考虑机器学习方向;
如果对所在行业的业务比较精通,也可以从事业务分析或行业分析方向。
做适合的和喜欢的最重要。不论哪个方向,都是要先掌握工具使用,了解你要分析的业务流程,培养独到的分析思维模式,锻炼自己的表达。
五、统计的学习应该从哪里下手
就我本人来说,基本就是看前面推荐过的那本《商务与经济统计》,并且在实际工作中要有意识的应用。
比如,观察一批数据的时候,就可以用R先了解数据的均值,方差,中位数,极大值,极小值等等,通过绘制直方图来了解的数据分布情况、缺失情况等等。
通过预测的场景,首先可以用线性回归来尝试,效果不一定比机器学习的算法差。
个人建议,供参考。
网友评论