2020年毕业的研二渣硕-论腾讯面试官虐我的一百种方式（Java

作者: cd4bd3aa39ec | 来源:发表于2019-07-02 21:53 被阅读7次

背景

2020年毕业的研二渣硕一枚，简历上一个实验室横向的CV项目，一篇CCF-A一作（adversarial learning方向），一篇CCF-B三作（后续事实证明只看一作），之前曾在国内某大厂架构部门实习（搬砖）。

同时段还投了阿里达摩院research intern、微软小冰组、蚂蚁金服AI以及宇宙条AILab，除蚂蚁金服回复positive以外其他都negative，充分地教会了我不自量力这四个字的写法。这次腾讯面试的部门是游戏AI，对于我个人来说算是强相关方向。

由于楼主人在上海，三次面试包括HR面在内全部都是电话面，感觉对口头表述能力是很大的挑战，很不巧我在这方面乏善可陈。

面试内容总体感觉很偏研究，代码基本没怎么问，研究型的问题刨根问底，从基础到前沿工作都有涉及，风格和阿里以及头条相差甚远。

一面

介绍简历上的工作，详细讲了一作的论文，非一作的直接跳过
介绍简历上的项目，说到[CRF as RNN]模型的时候，面试官问你们的训练数据量远少于语义分割，具体是如何训练以及对抗过拟合的，是否有用到pretrained model
- 大部分做主流CV任务的网络参数量都太大了，不适合直接迁移
- 将VGG换成了UNet => 追问，为什么换
- 常规的数据增强 => 有哪几种
- Adversarial training => 追问了具体实现方法 => 参考了[ICLR 2018 Sinha et al]的工作
针对王者荣耀任务设计强化学习算法框架（复盘时想起腾讯AILab在ICML2018上的论文上有一张王者荣耀比赛的图片，大概面试官是想听我说MCTS，可惜当时没有想到这一层，捂脸~~
- 问面试官同时控制五个英雄会不会涉及到multi-agent的问题 => 先简化问题，认为只有一个英雄也可以
- Hirachical RL，比如分开对线期和gank期子任务等等来缩小action space
- 大型MDP，baseline模型可以用DDPG或者distributed PPO
- 高端局可以拿到大量的人类操作数据，可以做imitation learning => 追问了具体该怎么做
  - 说到Inverse RL，讲了下DAgger
  - 介绍了GAIL以及AIRL的一系列工作
平时打游戏吗 => 玩 => 面试官说那么我们部门做的东西你应该蛮感兴趣的，你可以回去搜一下KPL比赛

二面

这次是目前为止遇到过的所有面试中，问问题最详细最深刻的一次，对于某一大类方法的研究络与发展历程，从每个算法的motivation到formulation，求解优化的细节，算法的本质，不同方法之间的比较，以及一些包含个人理解的开放性问题。诸如此类问题，不仅要求个人对某一个领域的问题有很深入的思考，还要求表达上思维的流畅连贯

怼项目，面试结束之后复盘发现，其实面试官问的有关项目的一连串问题，是希望我可以按照一篇学术论文的思路，将整个项目的历程组织起来的：
- Background & Motivation: 项目中用到的方法既然是参考别人的paper做的，那么你如何理解这次项目与别人paper中遇到的问题的差别？
- Related works: 传统上其他类似的视觉任务遇到这种问题是怎么做的 => 介绍了RNN as CRF，PSPNet，DeepLab
- Our approach: 既然你的问题与语义分割不同，为了解决task-specific problems你们做了哪些改进 => 为什么这样设计网络结构 => dense CRF具体怎么实现的
- Conclusion & Future works: 做完这个项目你觉得里面还有什么问题是待解决或未解决的
怼论文，之前有没有人做过类似的工作，与自己的方法比较，还有一些论文的琐碎细节问题
详细介绍深度学习网络结构的发展历程，从AlexNet到VGG再到ResNet再到DenseNet => 延伸问题：为什么DenseNet效果可以比ResNet更好
介绍深度学习优化方法的研究脉络与发展历程，从SGD到Momentum再到Adagrad和RMSProp，最后详细讲Adam
了解传统机器学习吗 => 了解 => 那你来讲讲SVM吧 => balabala => 如何解决线性不可分问题 => balabala
两个数组取交集，讲算法，推复杂度（~~貌似推错了~~
详细问了有关RL的一系列问题，分value-based方法和policy-based方法
- policy-based方法和value-based主要的区别在于哪里 => 从Bellman equation开始各种胡扯
- value-based方法学习的目标是什么
- 讲policy-based方法的研究脉络与发展历程 => 从policy gradient theorem讲到REINFORCE，从DDPG讲到A2C，从TRPO讲到PPO
  - 追问一：value function在TRPO中的作用是什么
  - 追问二：带value function的模型在优化时如何迭代
  - 追问三：value function的loss可不可以和policy的loss放到同一个框架下
  - 追问四：介绍PPO => 两种objective function
聊人生，为什么做RL => 觉得有趣
重复问了一面的问题，平时玩游戏吗 => 玩 => 玩什么游戏 => Dota2（腾讯的面试者里面上一个这样回答的已经被拉黑了~~

HR面

问我的具体研究方向 => RL强相关方向
由于我学校在上海，问我去深圳工作有没有问题
之前对腾讯有什么了解 => 看过AILab发的顶会文章，仰望大佬
有没有亲戚朋友之类的在深圳，将来考虑留深圳吗
什么时候可以开始上班

然后HR口头允诺了offer，面试结束，这次面试不超过十分钟

读者福利

读到这的朋友还可以私信我免费领取一份收集的Java核心知识体系文档及更多Jav进阶知识笔记和视频资料。

资料领取方式：点击链接加入Java高级架构交流

更多笔记分享

网友评论

本文标题：2020年毕业的研二渣硕-论腾讯面试官虐我的一百种方式（Java

本文链接：https://www.haomeiwen.com/subject/cjhxhctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2020年毕业的研二渣硕-论腾讯面试官虐我的一百种方式（Java

背景

一面

二面

HR面

读者福利

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

互联网科技

Java