三个月前,我不经意间看到了一个数据分析的软件Tableau,凭着对数据的敏感,觉得是值得挖一挖的金矿,于是开始从尝试到执著。接下来的十天时间,白天做公司的业务数据分析,晚上读书和看官方帮助;再后来的两个月,平日工作在身,闲暇之余持续学习,两个月时间,自己在大数据分析上的进步让自己甚为满意。
这一切,由Tableau所赐。
何为Tableau
网上有人称之为“大数据时代的梵高”,虽有盛誉之嫌,也算实至名归。
诞生于2003年的Tableau,基于斯坦福独有的专利数据技术 VizQL,这个专利技术创新性地把拖动等操作转化为查询语言,然后通过图形化表达出来,就是我们看到的漂亮的、无与伦比的、可以五彩斑斓夺人眼球的可视化了。一篇文章说国内的数据分析平台研究了十几年,正在奋起直追,在技术这个领域,空有勤奋断然是不好使的啊。
Tableau——帮助用户理解自己的数据。
它的口号也会让你动心——“所有人都能学会的业务分析工具”。如果你熟练表格的数据透视图,学习这个软件,就像从数据的三楼坐电梯直达十二楼,从此在非专业的行业里,可以一骑飘尘了。当然,要到圈子里混,R语言,python,以及DW等等,最好揣好了再出门。
不过有一句话,已经能激励我们了:
Gartner说:“2020年,平民数据科学家的数量其增长速度将比数据科学家的数量快五倍。”
我的学习过程 三阶段
作为公司数据的外行,我的学习充满了坎坷,起初的好奇,后来的苦涩和坚持,最后的欢喜,都是路上的别样感受。
第一阶段
第一阶段基本是摸索和尝试,Tableau赢得了我的好奇心,在可视化上的易用性、数据提取和分析的速度上深得吾心。
Day1 下载并注册试用版,看着界面就像表格的透视图嘛,导入一个规范的表格,拖拖拽拽,拽拽拖拖,嗯,还不错……
Day1 看看京东上有没有教程,搜到一本《人人都是数据分析师–Tabaleau应用实战》,下单,第二天到货。打开快速浏览,“入门篇”,一分钟翻完;数据连接,两分钟看看重点;初级可视化分析,和表格差不多,快快看过。开始练习软件……
Day2 这个软件好像不像是“所有人都能学会”呢,为什么拖来拖去和结果结果不一样? 好奇怪,维度、度量、标记,页面、分析、筛选…… 一点点练习。用公司的数据,分析半年经营分析,切换各种“智能显示”,很不错。
Day3 遇到进一步的瓶颈了,分析半年度的员工薪酬、半年度的品类业绩、单品类的会员消费流水…… 找不到环比,不知道如何使用标记,日期总是跳来跳去……
Day5 下班不带电脑,晚上重新翻书,从第一章开始,觉得新鲜的、有用的地方做标签,用一页纸做“初级可视化”的笔记,明白条形图、直方图、柱状图、折线图、气泡图、饼图、压力图、标靶图、甘特图的使用场景,如何通过维度、度量、标记+行、列、筛选加工而成;
Day6 花一整天的时间,练习高级数据操作——分层、参数、集、组、参考线,并且在实践中练习。
Day7~9 用一套数据反复练习,不断变换,有困难立刻上官方帮助网站查询,,虽然图标是英文版软件展示,但是对我毫无压力;凡是要重点学习的,一律保存到OneNote笔记中。
Day10~花了两天,还没弄清楚 「详细级别表达式」是个什么鬼,因为涉及到数组{ },还有充满误导性的 冒号……
详细级别表达式具有以下结构:
{[FIXED | INCLUDE | EXCLUDE] <维度声明>:<聚合表达式>}
《人人都是数据分析师》
附几张图片,鉴于行业机密,数据做了隐藏等处理。
我的练习(隐藏了关键数字)
第二阶段——学习 LOD
我起初低估了LOD的难度,本以为两天可以,结果两个周才基本拿下。也许对于非理科生而言,这真是最大的拦路虎。
连续几个迟迟不能领会LOD的意思,于是我用了最笨拙也是有效的办法,创建八行五列测试数据,反复地验证、试错,同时不断地寻找各种资料学习,于是有了后来的几篇博客。
- 在此文中,从何为“表达式”入手,我对比了“行级别表达式”、“视图级别表达式”、“表范围 详细级别表达式”和“ 超越视图级别的详细级别表达式”。
- 行级别表达式(RowLevelExpressions)相当于Excel的公式,针对单行数据执行操作运算,比如基于销售清单计算单品毛利率,利润率= [Profit] / [Sales]
- 视图级别表达式(View Level Expression)是可视级别字段的操作计算,这些计算多半包含聚合运算,比如基于销售清单计算门店的平均利润率,利润率=sum([profit])/sum([sales])
- 详细级别表达式(LOD=Levelof Detail Expression)
- 表范围详细级别表达式,是LOD的简化版,它省略了维度;对比并理解{Min(Profit)}和 Min(Profit)的不同;
- LOD,通过实际的联系,我发现了自己的误区,fixed维度,就是锁定维度的所有数值。
- 总结一句话,实践出真知啊。
- 在本文中,我说明了LOD与维度、度量的关系,三种LOD表达式在Tableau操作中的位置,以及LOD的语法。
- 此文我汇总了主要的官方LOD引文,作为总结;
- 梳理了LOD需求的推荐方法,引用了官方的三个案例,通过清晰地表达“焦点”和“背景环境”梳理需求;值得好好学习的方法。
- 汇总官方的LOD相关的博客资源,特别推荐LOD详细表达式。
- 在学习Tableau路上的分享,突出了对业务理解的重要性,总结了Tableau的几个学习重点。
第三阶段——去教别人
在教别人的过程中,获得成长,这是我进步的好方法。我在学习过程中,帮助公司大数据部门的同事认识Tableau的好处,指导学习,分享自己掌握的各种资料,并解答他们的问题。
不要吝啬分享,就会获得更多。
当然,因为LOD的出乎意料的苦难,我迟迟没有学习地图和R语言,其实也是没有到合适的时机吧。下一步,我要放慢速度,在练习中分享,就像已经分享的两篇可视化的文章。
说说跨界学习的体会
我大学政治学本科和教育学硕士毕业的,呃 ?不是理科生? 真不是。
可惜我高中数学就好,好到老师都不管我就考全班第一。
言归正传,很多知名人物都说,自己每隔几年都会读一个崭新领域的书,如此才会跟上这个世界的变化,同时可以跨领域地应用人类的智慧;李笑来老师分享自己如何“实现财富自由”,他说自己每个领域都不是最强的,但是多个领域的集成优势让自己最终把握商机和抓住机会。
我从今年开始全力向实用性知识转移,比如销售心理学、定价、数据分析、财务和金融等等,数据分析是迄今最为应用性的知识了,十天时间,其实也是困难重重,总结一二,以勉自己。
切不可盲目,过分自信是成功的绊脚石。虽说整体的印象和“试用性”的探索很重要,但是没个新行业都有我们不知道的基础知识,太基础了,容易忽视,确实这个行业的基石。金融学的基础知识P=C/r,一旦明白了,好多事情就会豁然开朗,但是如果自以为简单而绕行,就步入了荆棘之路。所以克里斯坦森建议说,遇到困难,他能给出的建议就是,「回到原理」。
应用性的知识没有「我以为」,只有you can, or you can’t.文科的研究生可以把“论历史是一门科学”写成洋洋洒洒几万字,我当年也单凭分析两个词组academic power and academic authority 就发表一篇CSSCI。但是应用没有“我以为”,我觉得我晚上看明白了,第二天还是做不出来书里的样子,那就是还没学好。谦虚的对待技术,因为它会立马回给你颜色。
永远相信,有更高效的方式,可以做好眼下的工作。对于离不开表格的人而言,Excel是冲锋枪,但是一旦迈过这个阶段,你会发现,数据可视化就是战斗机群啊。你见过冲锋枪敌得过飞机的吗? 这已经不仅仅是效率的问题了。
集中精力,攻克难关;不急不躁,按耐成性。
结
实践出真知,坚持生智慧。
2017年7月28日 第一版
2017年10月18日 第二版
网友评论
而且数据分析人员除了工具技能,更重要的分析的的思维,工具好学,思维难学
冲锋枪努力爬上战斗机中