《数据科学家访谈录》[美]单研+陈子蔚+汪强明+宋迈思.中国工信出版集团+人民邮电出版社.2018
在学术界,你需要做的第一件事就是关上门,静静的坐在自己的桌子前。但是硅谷是没有门的!一旦走进企业界,你就好比走到了空旷的空地上一样,在第一次听到别人告诉他们“不,你必须要工作、合作、交流、沟通、竞争、辩论,而不是躲在门或者办公桌的背后”的时候,这些人往往都是一脸的震惊。(p4)
数据科学是一个团队游戏,必然需要有些人去把数据收集到一起,有些人去转移这批数据,有些人来分析它们,有些人来把分析的结果和想法大声地告诉世界。(p5)
以往的数据科学只能以图像的形式向你展现出问题和数据,而现今的数据科学是通过鞭辟入里的分析得出结论,并告诉你可以采取什么行动。(p6)
你把两个简单的东西放在一起,它们可能会创造一个新的世界。(p7)
无论你去哪里,记得要跟最优秀的人在一起。(p11)
做事一定要从简单的做起,然后慢慢做一些复杂而且艰难的事情,那个时候你才有办法解决那些复杂的事情。(p13)
用简练的语言解释一些东西是非常困难的,因为它需要同理心。你当然必须要理解那些非常复杂以及学术性的技术,但同时你需要对一些完全没有技术背景的人讲解这一切。你必须要清楚他们是怎么想的,这样你才能用他们能够理解的语言来讲述这一切。同时,你必须要考虑到,你的听众只有很短的一段时间能集中精力,他们很快就会变得不耐烦,并且他们绝对不会花费大量的时间去学习这些知识或者技术。(p17)
在招聘的时候,你应该做的事情就是寻找那些能快速学习的人、有非常多创意的人、能够灵活变通的人,以及能够与你公司的软件工程开发部门通力协作的人,因为他们最终会一起合作。他们需要有能力和运维数据库的人成为好朋友,因为只有这样他们才能从数据库中获得所需的数据,同时他们也要能和产品部以及市场部的同事沟通聊天,一同探讨问题商量产品策略。(p22)
数据科学家的工作分为3个板块:统计、代码以及讲故事/可视化。(p23)
在大公司里开发新产品的过程更像是一个跨小组式的合作,而不是像小公司一样,你的小团队里每个人都顶着好几个称谓做着不同的事情。(p34)
最核心的建议就是尽量的做更多的图,并且尽可能的做出来。通过画图来表示事物是怎么运转的,哪怕是最简单的流程图表或者工程图谱都可以。很快地做出很粗糙的图片来查看一批数据是怎样的,从时间序列和柱状图开始。努力去想如何进行图形建模,并且尽量利用你面前所拥有的系统和数据,去帮助自己思考各种可能性是如何组合在一起的。(p43)
使用R或者Python去完成数据清洗和分析工作,然后使用D3、ggplot或者matplotlib去将这些数据集可视化地展示出来。(p46-47)
公开去编程,这是第一要诀。如果你想要成为一名数据科学家,你差不多肯定需要有能力用一到两种语言写程序。达到这要求有很多办法,但是基本上你肯定需要有足够量的训练,并且有能力在电脑上写出一些不算太简单的程序。(p48)
三点坚信不疑的信条:多数据胜于好模型;好数据胜于多数据;二八原则。(p52)
好的数据科学家不仅仅是那种会通过数据回答问题的人,而是真正具有数据挖掘能力和分析能力的高手。(p56)
数据科学韦恩图(p68)[2018-04-07读完]《数据科学家访谈录》读书摘录
不太具备某方面天赋优势的人可以通过授课和指导他人来获得这方面的经验。(p69)
对于任何人,只要他有黑客般的思考能力和足够的灵活性,他就一定可以胜任一名数据科学家。(p82)
在大数据这个领域,用于统计分析大规模数据,进而得出反馈结论的各种算法都已经存在并且久经考验了。所以,算法已经有了。我们付给数据科学家的工资,是希望他们可以建立分析流程,将数据导入算法,并且知道如何将特定的算法用于特定的领域。这些技能都需要数学和统计学方面的直觉。所以如果拥有完备的数学和统计学知识,你就已经完成了这条路的85%了,剩下的15%主要就是一些基础的编程技能。(p83)
拥有统计和编程的背景在很多方面都是大有益处的。公司雇佣你是需要你去做编程工作,但是你的统计背景决定了你是否能上升到更高的层次。所以这两方面的技能是需要你自己去平衡的,但毫无疑问它们都很重要。(p84)
数据科学大致可以分为描述分析和预测分析这两个板块。它们中的共同点有很多,比如都需要非常扎实的编程功底。预测分析型数据科学家需要一些有关于机器学习的知识,而描述型的数据科学家应该需要一些统计学知识。除此以外,预测型数据科学家需要学习大量的有关随机森林和神经网络相关的东西。(p95-96)
这种兼具出色的理论思考能力和实施落地能力的人,而无疑问就是最为出色的数据科学家。(p105-106)
商业咨询能力是区分数据科学家与数据“技术宅”的重要指标。(p126)
SQL(40%)+Hadoop(30%)+R(15%)+主流编程语言(10%)+主流脚本语言(5%)。不推荐商用统计编程语言,如Matlab、SAS和SPSS等。(p126)
身为一名数据科学家,你应该尽量克制自己那种喜欢从头做东西解决问题的冲动,以及喜欢花时间把一个东西的准确率从80%提高到90%的欲望。那些东西在商业的世界里没有太多价值。(p127)
做出几个小的产品原型,然后把它们放到真实的客户那里去测试。不要盲目的坚信自己的观点,市场反馈是唯一的宗旨。你必须要去做商业实验,然后基于实验的结果毫不留情地转换自己的观点。(p128)
Andrew Ng的机器学习课程、Daphne Koller的概率图模型、Jeff Heer的数据可视化课以及Jure Leskovec的大数据挖掘课。(p133)
你可以将自己培养成T型人才,也就是说,广泛地培养自己的技能,但是专注于其中一项技术。(p139)
大部分的统计学都是关于如何从噪声数据中识别信号的,从大量的错误信号中找出正确的信号,这就是所谓的“发现”。(p152)
条件黄金法则:试着用自己最希望看到的方式去展示你的点子。(p154)
Edward Tufte: The Visual Display of Quantitative Information(p154)
最好的建议就是,在你动手做一个可视化的图像之前,深入地思考你希望你的观众从你的可视化中获得怎样的信息。(p155)
如果存在系统性偏差,无论数据集有多大,你都必须要认真考虑这样的偏差带来的影响。系统性偏差不会因为数据集的扩大而减小。(p159)
切记一定要去Kaggle网站上动手做一些类似Kaggle的赛题。(p159-160)
John Foreman: Data Smart(p162-163)
一些非常简单的分类方法——比如仅仅依赖一个维度将数据进行分类——却比很多复杂得多的模型效果要好,比如说CART模型。这个结论对于绝大多数商业环境下能见到的数据来说都是适用的,你的数据中往往只有几个维度是不错的,至于其他的大部分维度其实都是没用的。(p164)
“你的模型不是目标,你的工作不是Kaggle竞赛。”通常来说,当你从Kaggle上下载数据的时候,这些所有步骤Kagglr都已经帮你做完了,你并不需要到处跑来跑去的寻找数据。在数据科学界有一个观点,Kaggle根本不会关注一个问题是不是当务之急必须解决的。Kaggle只不过是把数据科学家看作建模机器罢了。(p168-169)
如果你将数据科学作为一个学科,深入其中进行调查得越多,你就越会发现,这个看似笼统的大伞下面,掩盖了非常多的技术、数据集以及学科背景。数据科学家没有一个很具体的学科背景,也没有一个很具体的工作内容。(p178)
如果从学术界转入数据科学界,你学到的一大能力就是将很大的问题不断细化,分散成小问题,然后逐个去击破与解决。(p202)
数据科学是从数据中获得可操作可实战的信息价值的艺术与科学,一名好的数据科学家应该有一个出色的学术背景,这会使得他精通于数据科学领域,但最好的数据科学家一定是那些能展现出艺术天赋的人。(p213)
你的受教育程度越高,你的工作经验越丰富,你就会越觉得自己善于解决七七八八的小问题,想明白如何将原本看似复杂的东西看通透,使之适用于你所知道的东西。(p232)
“我很聪明”的潜台词在学术界以外的任何地方都不重要。你必须从这里开始习惯这样的模式:“这是我的发现,以及我为什么要关心它。”(p234)
Josh Wills将数据科学家定义为“统计学家中最好的程序员,程序员中最好的统计学家”。(p238)
大家开始自然而然地相信,当人们互相残杀时,就会以一种数学上可以预测的方式进行,而这种方式似乎并不依赖于政治或宗教。(p262)
当某个想法被最终接受的时候,它看起来会如此的自然而然水到渠成,以至于每个人都将会忘记你最初为它做了多少努力。(p262-263)
有两种可以获得博士学位的方法。其中一种是在实验室里努力工作,在一个很小的尖端问题上努力奋斗五年,然后逐渐做出突破。另一种是,让自己接触到各种不同的想法,把这些零散的知识点连接起来,然后依此画上一个结构,使它与世界建立起联动。(p264)
要记住,人类本身就是带有偏见的物种,他们绝对需要数据帮助他们走向未来。我们不能天真地依赖着经验永远走下去——数据科学就是为了解决这个问题而存在的。它不是什么类似过往的科学的东西,但是,我们绝对不能因为它不能简化到按一个按钮来解决一个具体方程,就将其抛弃、置之不顾。(p274)
在数据科学中使用的统计学,与你在研究论文中读到的统计学真的不一样。公司对于统计方法的选择要有在速度、可解释性和可靠性方面的偏向,而不是理论上的完美无缺。虽然公司用到的统计学和数学可能并不复杂,数学和统计学的扎实基本功依然在你需要区分真实洞见和虚假结果的时候显得非常重要。(p287)
计算机科学、统计学和数学之间的平衡将取决于你的岗位。(p288)
网友评论