从今年3月份暑期实习到秋招一直投的算法岗(数据挖掘、机器学习),今年听说投算法的人特别多,竞争激烈,自己之前本来想去金融,后来觉得还是喜欢互联网,从去年11月才开始好好看书,又不是CS科班出身,所以面试毫无优势可言。基本上把大半个互联网公司都面了一遍,虽然挂的太多,但面试官水平都很高,面试中也学到了很多东西,认识到很多地方不足,要学的东西太多。我自己做过的项目主要是推荐系统和nlp,图像了解过一点,所有面试主要还是围绕项目展开。有的时间太久,细节想不起来了,想起来再慢慢更新,把不知道的知识点补上。
面试主要考察点:
项目+机器学习(深度学习)基础+数据结构与算法+开放题+智力题(偶尔有)
携程(实习):
1.讲项目
2.写一下LR损失函数
3.SQL题,很简单,但当时没想出来…
4.GBDT、xgboost用过吗,解释一下
5.距离公式有哪些(余弦距离等)
6.特征怎么选择
7.随机森林
8.二阶的优化算法知道吗,讲一下BFGS
9.有没有做指数衰减
滴滴(实习+校招):
过完年回来,参加映像最深刻的实习面试,全程3小时,其实问的很基础,但是自己没有好好准备,很多基础掌握不牢。
1.讲项目
2.SQL:left join、inner join区别,写了一道题
3.SVM是什么、核函数有哪些、怎么选择
4.LR损失函数推导一下
5.随机森林、Adboost
6.AUC、ROC、recall、precision写公式,AUC的直观解释
7.CNN的卷积公式
8.损失函数不可导,梯度下降法怎么办?(次梯度?)
9.Python中list和tuple的区别
10.正负样本不平衡怎么办
11.决策树怎么剪枝
12.问了些数据结构
校招:
1.写个快排、改进、find(s,p),写了4道代码题
2.200G日志用笔记本找Top100的query
3.解释一下xgboost
4.项目中用到了哪些特征
5.写代码:二分查找、实现一个栈(查找、删除、插入等操作)
6.DNN和CNN有哪些区别,CNN有哪些优点
7.LR和SVM各自有什么优点和缺点
阿里(实习+校招)
内推的蚂蚁的风控部门
一面:
1.7月底就打了电话,主要是讲项目,然后针对项目提了很多问题,面试官水平很高
2.数据样本构造、样本选取
3.讲了word2vec以及怎么应用
4.看过什么前沿的论文,怎么运用
5.垃圾评论检测
二面(挂):
1.文本相似度计算为什么不用SVD…
2.了解哪些优化算法
3.为什么用wide and deep,不用lr+dnn集成学习
腾讯(实习+校招)
实习做了笔试,邀请到酒店面试,是一个小哥,很和蔼
1.自我介绍,讲了一个项目
2.Xgboost、随机森林的区别,xgboost怎么并行,树个数和深度怎么选择
3.L1、L2正则化的区别,为什么L1得到稀疏解
4.解释一下SGD、drop_out、神经网络的BN层
5.代码题:最大子序列的乘积
6.了解分布式计算,并行计算吗
(第二天查了状态是复试中,但到最后也没收到复试通知,最后一天查状态挂了…)
秋招内推,腾讯游戏的部门
一面(视频面,全程写代码)
1.写LR公式
2.DNN前向传播、反向传播,求梯度
3.实现一下shuffle函数
4.了解强化学习吗(不了解)
二面(挂):
1.讲项目
2.K-means、随机森林、DNN怎么调参
3.怎么防止过拟合
4.C++内存怎么分配(说不知道,直接跪)
5.写C字符串拷贝函数strcpy
6.写判断是否二叉排序树
美团(校招)
1.推荐算法:SVD、协同过滤等,怎么做推荐的
2.解释一下CNN、RNN
3.数据怎么预处理、特征工程
4.特征选择怎么做、决策树怎么分裂的
5.推荐系统好坏评价
6.解释一下A\B测试
7.提高外卖配送效率,需要考虑哪些因素
8.样本怎么构造、数据量有多大
9.余弦距离和欧氏距离区别
10.评论反作弊(被问了不下于3次)
京东(实习+校招)
校招投的上海这边算法组,面了两面说对我很满意,要给部门老大看,但不一定有offer,因为老大手上简历太多…
1.讲项目,特别是衡量指标(PSNR、AUC)
2.怎么做推荐的
3.决策树、GBDT、Xgboost讲一下区别
4.Sql题:怎么用join实现分组排序和分组累加和
5.问了项目的word2vec和doc2vec算法
6.LSTM和RNN区别,LSTM语言模型解释一下
7.了解Attention机制吗
8.用过spark吗(没用过)
百度(校招)
先是内推,面完3面后很久没收到消息,就知道挂了
一面:
1.xgboost与GBDT比较
2.Python中numpy为什么快,说用的C实现,然后问C++中STL底层,完全不会
3.Python中能表示的最大数
4.怎么做推荐、文本处理方法
5.写代码:求两个字符串的最小编辑距离
二面:
1.CNN怎么做文本分类
2.怎样快速计算x的根号3次方,有内存限制,不能调库函数(这个问题纠结了很久)
3.为什么文本相似度要用余弦公式而不用其他的?
三面:
经理面,从技术到人生都问了很多
1.写个代码,求两个有序数组的交集,O(n),没想出来,只想出了一个二分查找
2.协同过滤
3.开放题,输入一个刘,弹出刘德华之类的,怎么做
校招霸面:
二面是百度凤巢的,感觉水平很高,答的不好,挂了
1.信息熵、信息增益、相对熵、交叉熵、互信息、基尼系数
2.常用的有哪些损失函数,推导一下log loss的梯度
3.写个代码:快速排序,平均时间复杂度、最坏情况
4.怎样确定采样的样本数量
5.特征工程怎么做
6.特征值、特征向量解释一下
7.解释一下决策树、随机森林
8.推荐系统考虑的因素
9.路径优化考虑哪些因素
10.写个代码:字符串去重函数
爱奇艺(校招)
1.写个二叉树反转
2.信息熵公式
3.CNN卷积的物理含义、pooling的作用
4.画一下word2vec中的skip-gram模式图
5.概率题:54张抽出2张同花色的概率,大小王任意一种花色都不算
其他公司
1.LR与SVM有什么区别
2.用过哪些Python库,介绍一下pandas中的dataframe
3.介绍一下MapReduce过程,与spark中的shuffle有什么区别
4.k–means的缺点,怎么改进,如果数据类在不断增加怎么办
5.决策树怎么剪枝的
6.LSTM与GRU的区别,经典的CNN的区别
7.EM算法,收敛条件
还面了华为、唯品会、银联之类的,基本都是聊项目,所以没什么好写的,但一定要对做过的项目很清楚明白,有很深刻的理解才行,其他的后面想起了再更新
网友评论