算法
- 统计学习方法,每一个算法KNN,朴素贝叶斯,决策树,logistic回归,支持向量机,提升算法,EM算法,隐马尔科夫,条件随机场,,
-掌握内容:项目简介,模型简介,模型优缺点,技术细节,横向比较,开放问题 - Kmeans必须懂 KNN懂原理不用写 SVM、MR和Pagerank多看看,遇到问题多用这些方法讨论,KNN(分类与回归)
- 贝叶斯分类器的优化和特殊情况的处理
- 决策树的的训练
- 约束优化的KKT条件 KKT条件在边界区域的搜索行为的物理意义是什么
- 为什么可以使用logistic回归。。
- 线性分类器与非线性分类器的区别及优劣;
- 特征比数据量还大时,选择什么样的分类器?
- 对于维度很高的特征,你是选择线性还是非线性分类器?
- 对于维度极低的特征,你是选择线性还是非线性分类器?
- 如何解决过拟合问题?
- L1和L2正则的区别,如何选择L1和L2正则?
- 随机森林的学习过程;
- 随机森林中的每一棵树是如何学习的;
- 随机森林学习算法中CART树的基尼指数是什么?CART(回归树用平方误差最小化准则,分类树用基尼指数最小化准则)
- Logistics(推导)
- GBDT(利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值,拟合一个回归树)
- 随机森林(Bagging+CART)
- SVM与随机森林比较
- 改变随机森林的训练样本数据量,是否会影响到随机森林学习到的模型的复杂度
- Logistics与随机森林比较
- GBDT与随机森林比较
baidu面试经验baidu
优化算法
- 线性回归的梯度下降和牛顿法求解公式的推导
- **LR原理及公式推导,有哪些优化方法,梯度下降,牛顿法以及各种变种,L1、L2范数的区别,优缺点。(这个考的是最多的)
- 最速下降法和共轭梯度法 wolfe条件 最速下降法和共轭梯度法的收敛速度如何判断
并行计算
- 实现一个分布式的topN算法。。。
- GBDT、XGBOOST原理异同,如何并行化等等(最好去xgboost官方看原始论文,讲得很清楚)随机森林原理及细节。如何解决数据不均衡问题。SVM原理及细节,SVM和树模型的异同以及优缺点和局限性。推荐系统,协同过滤原理,基于用户、物品等等。深度学习中的一些小问题,比如relu是什么,如何解决梯度消失等等,这个最好了解下,毕竟深度学习这么火。
简单算法&数据结构
1.最简单的top n
2 偶尔会有一些简单的poj
3.数据结构
系统设计,包括算法和工程系统
- 如一个热门微博排行榜等
- 自己实现过什么机器学习算法
- 推荐算法(基于用户的协同过滤,基于内容的协同过滤)
- 如何做一个新闻推荐
链接
未知方向
- item和cf协同过滤的优缺点,如何从计算公式证明,各种情况的惩罚,hadoop上mr的实现,包括各种情况的惩罚。
其中引用大量个人博客以及回答,侵删
网友评论