【译Py】数据科学面试终极指南（七）

作者: 呆鸟的简书 | 来源:发表于2018-07-12 22:13 被阅读40次

资料和数据

如果提出的薪资在平均线左右，谈判就会比较顺利。要是再能提供些详实的证据，你就是谈判桌上强势的一方。

这里有一些资料和数据可供你研究。

Indeed.com公司的数据分析师平均薪资为65,000美元，数据工程师的平均薪资为100,000美元，数据科学家的平均薪资为115,000美元。各地区的收入水平不同，薪资最高的地区集中在技术密集的海湾区。O'Reilly传媒公司的调研表明，和其它美国地区相比，加利福尼亚的数据科学薪资水平和中位数都是最高的。从全球来看，美国的数据科学薪资水平和中位数是最高的，英国、新西兰、澳大利亚和加拿大也相差不多，亚洲和非洲最低。

科技与社交网络公司里数据科学岗的薪资最高，教育和非盈利机构给的薪资最低。

具有不同的数据科学技能，使用不同的工具，薪资水平也不同。O"Reilly对数百名业内人士做过一次调研。研究结果表明影响平均薪资水平的因素很多。比如说，Scala这种扩展性语言的用户薪资中位数超过100,000美元，而SPSS这种专用工具的用户薪资水平就明显低得多。

名人名言

“世界上大多数人做决定，不是靠猜就是靠蒙，运气好的猜中了，运气不好就猜错了。” — Suhail Doshi，Mixpanel公司CEO

“所有企业都告诉经理人要全力支持数据驱动分析。问题是，数据只代表过去。所以，我们教给经理人和顾问的是做决策与分析问题的方法，事到临头才行动的思想是被人唾弃的。” — Clayton M. Christensen，哈佛大学管理学教授

“我们已经进入了数据比软件更重要的时代。” — Tim O’Reilly, O’Reilly传媒公司创始人

“用户希望快速、简单地获取数据，他们才不关心网站吸不吸引人，设计的漂不漂亮。” — Tim Berners-Lee

“数据科学家要干的事情就是采集数据，把数据变为可追踪的形式，用数据讲故事，再把这些故事讲给别人听。” — Mike Loukides，O’Reilly传媒公司副总裁

核对清单

1）列出和求职岗位匹配的技能；
2）列出希望就职的行业和公司类型；
3）准备领英、求职信和电子邮件模板；
4）全面研究求职目标的公司和岗位；
5）主动联系这些公司的职员，争取信息化约谈机会；
6）搭建人脉圈，争取工作推荐机会；
7）搞定数据科学面试；
8）不要放弃希望；
9）入职谈判。

模板

争取信息化约谈

【姓名】，您好：
我对Airbnb的数据科学问题非常感兴趣，同时非常希望能进入这一领域，我还是Airbnb Nerds博客的忠粉，我发现使用数据建立信任感是驱动Airbnb成功的核心。基于我在心理学与统计学方面的背景，或许我能提出些独具创意的想法，帮助你们强化客户信任。
希望能有幸请您一起喝杯咖啡，了解下Airbnb的数据问题，说不定我能帮上忙！
祝好！
【你的名字】

【祝辞】【为什么对这家公司感兴趣】【喜欢这家公司的什么业务】【能在哪些方面帮上忙】

找人推荐工作

【对方的名字】，您好：

很高兴在上次百乐餐会时认识您。我最近在找工作，我对优步的业务很感兴趣，特别是优步数据科学团队面对的那些问题。能帮我介绍一下你们的招聘经理或者数据团队的人吗，我想看看有什么能帮得上忙的地方？

祝好！

【你的姓名】

【祝辞】【说明最近在哪里见过面】【谈一下对这家公司的兴趣，或特定的问题】【请求帮忙介绍招聘经理，看看有没有能帮忙的地方】

面试后的跟进

【面试官的称谓】，您好：

很高兴能和您讨论谷歌的数据科学问题，我觉得您提出的问题里，有一些问题我能帮忙解决，如果可能的话，我希望能参加下一轮面试，谢谢！

【面试官称谓】，您好：

【讨论帮忙解决的问题】【表达想进入下一轮面试的意愿】

术语库

A/B分割测试：A/B分割测试是网络公司设计实验的黄金标准，两组用户分别对应不同的条件，测量他们达到特定目标的转化率。理想状态下，网络公司会专门做A/B分割测试，并会提供对这个概念进行指导。

贝叶斯法则：贝叶斯思维和推断依赖于偏差与方差。（具体的请自己找资料学习）

特征：某个对象的一组信息，通常是表格型数据中的一列。比如某个人的身高、体重和性别，就是三个特征。

生命周期价值：一个用户在一定时期内在某公司消费所产生的预期收益。比如，某家服务型创业公司按月收取软件费用，用每月价格乘以每月付费人数就能得到当月的预期收益。

MapReduce：存储大规模数据集的算法，数据分为多份存在不同服务器上，但处理时却像是对一个完整的数据集进行操作，这种方式可以减少处理大规模数据集的难度。MapReduce使用平行分布式逻辑处理大规模数据集。

过拟合：拟合历史数据趋势的模型，如果历史数据影响太大，就会导致洞察结果的过度归纳，致使预测结果不够精准。

I型错误：假阳性指错误地认可事情发生了，比如说，认为男人怀孕了。用技术用语来说就是，对零假设的错误拒绝。

II型错误：假阴性指错误地认为事情没有发生。比如说，认为孕妇没有怀孕。用技术用语来说就是，对零假设的错误接受。

想了解更多术语，请查阅这个数据科学术语库。

资源

KDNuggets网站上解读面试过程幕后真相的搞笑漫画。

数据科学面试解密这本书提供了很多面试习题。

Data Science Interview Exposed

数据科学手册，中文版叫数据科学家访谈录，京东有售。本书给出了很多数据科学家的实战建议，分析了是什么造就了优秀的数据科学家，还有不少在面试过程中发生的奇闻趣事。与之配套的数据科学面试指南一书中列举了120个数据科学面试时会遇到的问题。

数据科学家访谈录

破解编程面试一书是软件工程面试的权威读物，可以帮助求职者通过数据科学面试的编程部分。

Cracking the Coding Interview

Quora的这个帖子介绍了Airbnb怎么招聘数据科学家，这是一位数据科学领军人物对数据科学面试的深度解析。

Trey Cause揭秘了如何通关数据科学面试，他对于数据科学面试的看法非常重要，也十分坦诚。Erin Shell也讨论了她在面试数据科学工作时的经验。。

“随着年龄的增长，经验的增加，我会在面试时反问面试官。我会问面试问题的目的是什么？或者告诉面试官他们的面试方法不能很好的评估我的技术和能力。有些人可能认为我是不是觉得自己太优秀了，所以才不用回答这些大家都得回答的问题，但是我觉得这是评估、预测和招聘人才的重要一环，我要做的就是通过这种方式表示出我的态度。希望你也能做到这一点。我们在搭建团队和招聘时，总是认真的思考我们到底想要实现什么，怎么才能达到我们的目的，复制很多年前就存在的模式不是我们想要的。”

这篇文章很有思想，讲的是Twitter的数据科学项目是怎么运作的，介绍了数据科学家的对这一行感悟。

如果你正在学习概率论，可以参考这个速查表。Quora的这个帖子也能帮你不少忙。

Ellen Chisa的博客介绍了她几次技术面试的失败经验；你可以看看，避免犯同样的错误。

最后，First Round Review有一篇启蒙文章介绍了怎么才能招募到优秀的数据科学家；读一下这篇文章就能知道面试桌对面的人是怎么想的了。

关于作者

Roger Huang
Roger Huang是个学霸。他为一家大型医药公司做过价值7亿美金的销售数据分析，并由此进入数据科学这一行。他还是Entrepreneur、TechCrunch、The Next Web、VentureBeat还有Techvibes这些网站的撰稿人。

为了编写这本指南，获得数据科学的见解，他采访了数百名Springboard的数据科学专家，包括Sri Kanajan，本书的合著作者。

Sri Kanajan现任纽约一家投资银行的资深数据科学家。他有14年的开发与管理经验。2013年转行成为数据科学家。他曾在旧金山参加全日制数据科学训练营，完成了全部课程，并在两家创业公司当过数据科学家，到现在这家公司工作前，还担任过Change.com公司的数据科学主管。他利用业余时间担任General Assembly公司数据科学课程的首席讲师，热衷于帮助大家进入数据科学领域工作。

【译Py】数据科学面试终极指南（七）

资料和数据

名人名言

核对清单

模板

争取信息化约谈

找人推荐工作

面试后的跟进

术语库

资源

关于作者

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

呆鸟译Py

@IT·互联网

呆鸟的Python数据分析

Python中文社区

python机器学习爬虫

面试