一本介绍了25位成功的数据科学家学习和成长经历的书。
01 - 05:DJ Patil, Hillary Mason, Pete Skomoroch, Mike Dewar, Riley Newman
06 - 10:Clare Corthell, Drew Conway, Kevin Novak, Chris Moody, Erich Owen
- DJ Patil
“数据科学家”一词的创造者
《Data Scientist: Sexiest Job of the 21st Century》哈佛商业周刊作者
教育背景:加州大学圣地亚哥分校·数学学士,马里兰州立大学·应用数学博士,博士研究方向是非线性动态过程、混沌理论和复杂系统。
职业经历:气象领域近十年研究(注:DJ的博士研究方向和这个工作很对口);eBay首席架构师和研究科学家;LinkedIn数据产品主管;RelateIQ产品部副总裁(注:RelateIQ被Salesforce收购后,更名为SalesforceIQ)。
- 如何应对面试?
求职需要你每一次都针对不同的聊天对象修改对自己的介绍和描述。其中的精髓正和做数据科学如出一辙,你需要不断地在展示自己和研究如何展示自己之间反复循环。
- 如何在职场快速发展?
我认为目前数据科学领域的一大优势就是它并没有过于清晰的职位技能需求,所以很大一部分拥有偏才的人其实都是适合这个领域的。公司里根本没有人知道具体该使用什么工具来解决正在面对的问题,所以你必须去搞清楚,而这恰好给予了你足够的自由度。
- 职场新人要领?
新人首先要证明可以完成一些任务,然后证明可以创造一些东西。
- 学术界向科技界转型,会遇到的不足?
第一,学术界的人技能都过于单一,只专注于特定的问题和纬度。(DJ本人是在上学时上了大量的公式推导课和概率统计课;DJ学习的原则是,要能带来更广阔的眼界和出路);
第二, 学术界的人很喜欢滔滔不绝的说话,而不是静静聆听别人的需求,所以也不擅长倾听别人的问题在哪里。(相反的,就是要合作、交流、沟通、竞争、辩论)
- 数据科学是一个团队游戏
没有任何一个数据科学家可以为自己的成就独自邀功。数据科学是一个团队游戏,需要有人收集数据,有人处理数据(注:原书这里写的是转移这批数据,是翻译错误),有人分析数据,有人将结果发布出去。
- 数据科学技能向其它领域转移
举例有Datakind、Social Good、Crisis Text Line。新兴技术促使小公司可以拥有不输大公司的系统。
社会根本上的转变也在促使这一趋势,老一代人主要是同情,当代人主要是扶助。类似于,过去的数据科学家只能以图形展示问题和数据,而当代数据科学家是通过鞭辟入里的分析得出结论,并且可以知道要采取什么行动。
- 在工作和产品开发中最看重的品质
公司有两件事最吸引人:从头做一些东西,开发一个实实在在的产品。为了能作出好产品,首先,需要理解两样东西,缺一不可。一个是用户体验(user experience),另一个是数据。另外一点,多元化。方法是接触不同的事务。
- 关于努力工作(吐槽:答非所问,问的问题是学习哪些知识可以变得多元,却回答要努力工作)
DJ在RelateIQ工作时,通常每周的工作时长达到100小时(差不多就是每周工作7天,每天14到15小时)。他建议加入公司的年轻数据科学家的一件事就是,最好每天最早到公司且最晚离开。每天只睡4~5个小时,至少要持续6个月甚至于一年多。
- 要培养哪些有益的习惯
从认真倾听他人,到做一个团队合作者,小到出门捡垃圾,再到认真陪孩子做每一个游戏,不浪费食物,以及做事情重视团队利益而不仅是自身利益。一丝不苟地完成自己的任务,不辜负任何人和任何任务。讲故事的能力和叙事能力。另外,永远不要丢掉内心里的激情和好奇心。
- 如何选择方向
无论你去哪里,记得要跟最优秀的人在一起。确保无论自己去哪里、做什么,都可以让自己获得尽量多的进步。人生坐标最好时刻指向那个时候对你来说最好的方向。
- Hillary Mason
Bitly前首席科学家
Fast Forward Labs 创始人
Accel全职数据科学家
现任Cloudera的机器学习部门经理
- 未来5年数据领域的前景
多种行业和专业的人士会投入数据领域;数据工具会飞速发展;数据文化会越来越流行。
- 沟通能力和讲故事能力的重要性
把从数据中分析得到的东西告诉别人,让更多并没有参与这个研究过程的人也知道结论是什么。创造一个有信服力并且精彩的故事,同时要保证故事尊重数据事实。
但这并不容易。难点在于,要有同理心。
除了要理解非常复杂以及学术性的技术,同时还要对一些完全没有技术背景的人讲解这一切。必须要清楚他们是怎么想的,才能用他们理解的语言来讲述。同时,听众能集中精力的时间很短,很快就会变得不耐烦,并且绝对不会花费大量的时间去学习这些知识。所以必须要想办法用语言,或者可视化工具,来让听众理解。
- 什么是好的数据科学工作机会?
最好的数据科学工作机会,就是那种有足够自由度去收集数据的工作机会。而收集来的数据经常是一直在努力创造的一个产品的“副产品”。
- 新人该如何选择公司?
了解一个初创公司的文化。
- 项目管理经验
同时推进几个项目的进度,促进项目之间的成员有所交流,让项目的进度赶得上公司其他部门的进展。
- 如何做出对公司有重大影响力的产品和工作?
首先,清晰定义问题,推荐的办法是用最简洁的语言描述出来,写在一张白纸上。
其次,预估项目进度,设定衡量指标。
最后,找到入手点。入手时,就要有长期规划,确保可以通过这一阶段的工作,更深入地了解数据、确保每一个项目都时刻与公司的业务和产品相关。
- 如何打造数据科学团队?
能快速学习、有非常多创意、能够灵活变通,以及能够与你公司的软件工程开发部门通力协作的人。
- Pete Skomoroch
教育经历:布兰迪斯大学·数学物理双学位
职业经历:Analytics、MIT Lincoln Laboratory、AOL Search、LinkedIn(主管就是DJ Patil)
LinkedIn Skills & Endorsements功能的创造者
- 数据科学家与其它职位最核心的差别?
我们不想要招聘那种可以做商业智能分析,但是完全不会写代码的人;同样我们也不想要那种只能干纯编码的工作而完全没有任何科学或者数学背景的人。我们期待那种有复合背景的人。我认为这其实就是数据科学的精髓所在,它是跨学科的领域。
- 该学习什么课程?
尽量多地选修物理学和数学课程,同时选修一些计算机课程。
- Pete的“地狱般”的工作、学习经历
”我经常很晚都在办公室里,确认那些周期运行的模型在顺利地跑着,研读上千张与模型有关的表格与日志。”
“我经常早上醒来就去莱克星顿工作,然后去麻省理工图书馆通宵熬夜学习,只吃自动贩卖机的东西,把所有的时间都用来解决各种难题,然后第二天再去工作,完全就不睡觉。在这样做之后,我偶尔会回家去,身体崩溃到不行,但是之后我又会继续重复这样的过程。”
- 聪明+努力
聪慧只能帮你走到一定的高度,再往后只能依赖努力了,因为任何值得做的事情都必须花时间去搞定,并且你必须要追根溯源地深挖下去。
- 管理者要不要掌握编码能力?
“如果你即将转入管理岗位,我建议你不要完全放弃编程。保留一些编程的底子和基础,将有助于你跟上新工具的发展、新处理方法的发明、新的代码库以及最新的那些黑科技和编程语言。所有这一切都是很重要的,因为你距离一线的开发技术越远,你越难以做出明智的决策。这是一个科技飞速迭代的世界,尤其是数据科学领域。”
- 做项目和讲述项目的平衡点
“我个人会在讲述项目和做项目这两者之间求取平衡点。我的建议就是,努力工作、长时间工作,然后告诉别人你做了什么,之后你就可以向着下一步努力了。”
- 数据在未来的应用前景
一,越来越多的数据垂直领域公司将会出现。
二, 社交数据。现阶段所有产出的社交数据其实都能够以一种全新的方式去表征世界现象以及人们的行为。
- Mike Dewar
教育经历:谢菲尔德大学博士,研究方向是使用数据对复杂系统建模;爱丁堡大学、哥伦比亚大学博士后。
职业经历:Bitly(他在哥大的老板与Hillary Mason相识,因此去了Bitly),《纽约时报》研究与开发实验室。
- 画图的重要性
一开始就要作图。通过画图来表示事物是怎么运转的,哪怕是最简单的流程图表或者工程图谱都可以。很快地做出很粗糙的图片来查看一批数据是怎样的,从时间序列和柱状图开始。努力去想如何进行图形建模,并且尽量利用你面前所拥有的系统和数据,去帮助自己思考各种可能性是如何组合在一起的。
一,可以用图来验证对于整个系统机理做出的假设是否正确;二,可以尽快地深入理解数据集。
- 将大数据看作一种文化现象
一, 当下,对于数据的采集量,以及数据的需求量都在发生剧变,而用于存储数据、处理数据以及转移数据的各种成本都在不断下降。
二,越来越多的数据都开始被开放出来供人们使用。
- 对从学术圈转向数据科学的博士研究生有什么建议?
公开编程、构建人际网络、利用所学进行社会实践。
- Riley Newman
教育经历:华盛顿大学国际政治与经济学士、硕士、剑桥大学博士(肄业)。
职业经历:经济咨询领域,Airbnb数据主管。
(注:我觉得对Riley的采访没做好,问的问题大多是关于Airbnb公司,而不是关于数据的)
- Airbnb的招聘
“我团队里所有人都在计量计算方面有一定程度的训练,不过我比较希望我的团队拥有来自不同背景的人,因为这样可以使得不同的技能得以交流沟通,我们也许也可以用不同的办法去解决问题。”
在Airbnb,我们主要使用Hive、R、Python和Excel。
- 数据科学可以给公司带来什么价值?
数据可以在所有方面都有所建树。数据是客户发出的声音——数据是用于记录客户在产品上的各种行为的一个非常有效的工具,它代表了用户使用你的产品,为了他们想要做的事儿(或者不想做的事儿)所做的决定。数据科学家可以将这样的决定翻译成故事讲述给别人去理解。
- 数据科学的前景?
我们将会看到一大批工具的出现。
数据的采集会取得长足的进步。
数据科学会迎来普及化大潮。
网友评论