数据科学是技术领域中最不明确的领域之一,这篇文章可能会给你下一次作为招聘人员或应聘者的面试带来启发!
招聘人员所要做的事
面试很困难,数据科学更是如此。每个公司对数据科学都有不同的看法。 更糟糕的是,许多人在招聘过程中或之后才发现他们想要什么。
作为招聘人员的责任是尽可能清楚地说明工作描述:需要的是数据工程师,可视化专家,数据分析师,算法工程师还是机器学习研究员? 知道你想要什么,并及早过滤。
这个工作的不确定性将会遗漏最好的候选人——除非你是Google 等。他们会想知道已经建立了什么工具,他们的工作的投资回报率如何衡量,在团队中有谁……
本文涉及“机器学习”数据科学家。
让数据科学家谈论他们所知道的
数据科学家有非常不同的背景。每一次面试都不可能做好全部的准备:他们是否应该学习“标准”计算机科学?统计?关于贝叶斯定理的?深度学习?机器学习?你公司的领域?
优秀的求职者有许多类别的基础知识,善于动手实践,并在一些领域拥有丰富的知识。如果你想进行技术讨论的话,这有一些例子:
问题类型:回归/分类/聚类/异常检测…
数据类型:计算机视觉/时间序列/ NLP /推荐系统…
复杂数据:降维,流形学习…
观点:深度学习/贝叶斯机器学习/图形模型…
专长:行业洞察/优化/数值方法…
我的观点是“开放”1-1面试比办公室笔试要好。许多公司给出关键数据集,并要求分析。它可以帮助看出谁是务实的!对于有经验的求职者可以提问很多,问关于他们的项目,或在Kaggle / GitHub上的表现。
具有行业经验的求职者应该有失败的项目。 这些教训是必不可少的。
数据科学面试专题
然而,许多话题在数据科学面试中似乎是可争论的对象。 记住,目的是促进讨论:很少有一个唯一正确的答案!
机器学习与模型工程
你目前正在讨论的任务有哪些算法?
它们什么时候完成,足够完善,完善的基准,等等。
它们是如何工作的?是如何测量的?它们的参数拟合是如何优化的?
你如何评价一个模型的性能?根据上下文,这可以导致关于假正/假负、准确性、召回、AUC、提升等的讨论。这应该如何决定?
你如何选择最终的模型?性能?训练时间?评估速度?复杂性?
了解交叉验证和偏差/方差是至关重要的。
你如何做变量和模型选择? 你可以考虑信息化指标、正则化、稀疏性诱导方法,如L1正则化、向前/向后搜索...
数据工程
你如何设计X?
你会对任务X做什么预处理?
不平衡数据呢?丢失的数据?异常值?
以及高基数的分类变量?
如何处理大数据? 考虑在线学习、映射/化简、(小批量)随机梯度下降...
你知道什么工具/语言可以实现X? 你使用哪些?为什么?
你使用哪些可视化工具? 为什么?
作出决定?
这总是放手一搏的。你不可能仅在短短几小时内可靠地评估求职者过去项目中的参与情况,他们的专业知识,甚至你与他们的合作情况。
不要害怕选择具有不同背景和经验水平的求职者。 数据科学团队需要这样的人才。 如果你正在开始这样一个团队,就要依靠有专业知识的人:这是避免浪费时间的唯一办法。
网友评论