背景
2020年毕业的研二渣硕一枚,简历上一个实验室横向的CV项目,一篇CCF-A一作(adversarial learning方向),一篇CCF-B三作(后续事实证明只看一作),之前曾在国内某大厂架构部门实习(搬砖)。
同时段还投了阿里达摩院research intern、微软小冰组、蚂蚁金服AI以及宇宙条AILab,除蚂蚁金服回复positive以外其他都negative,充分地教会了我不自量力这四个字的写法。这次腾讯面试的部门是游戏AI,对于我个人来说算是强相关方向。
由于楼主人在上海,三次面试包括HR面在内全部都是电话面,感觉对口头表述能力是很大的挑战,很不巧我在这方面乏善可陈。
面试内容总体感觉很偏研究,代码基本没怎么问,研究型的问题刨根问底,从基础到前沿工作都有涉及,风格和阿里以及头条相差甚远。
一面
- 介绍简历上的工作,详细讲了一作的论文,非一作的直接跳过
- 介绍简历上的项目,说到[CRF as RNN]模型的时候,面试官问你们的训练数据量远少于语义分割,具体是如何训练以及对抗过拟合的,是否有用到pretrained model
- 大部分做主流CV任务的网络参数量都太大了,不适合直接迁移
- 将VGG换成了UNet => 追问,为什么换
- 常规的数据增强 => 有哪几种
- Adversarial training => 追问了具体实现方法 => 参考了[ICLR 2018 Sinha et al]的工作
- 针对王者荣耀任务设计强化学习算法框架(复盘时想起腾讯AILab在ICML2018上的论文上有一张王者荣耀比赛的图片,大概面试官是想听我说MCTS,可惜当时没有想到这一层,捂脸~~
- 问面试官同时控制五个英雄会不会涉及到multi-agent的问题 => 先简化问题,认为只有一个英雄也可以
- Hirachical RL,比如分开对线期和gank期子任务等等来缩小action space
- 大型MDP,baseline模型可以用DDPG或者distributed PPO
- 高端局可以拿到大量的人类操作数据,可以做imitation learning => 追问了具体该怎么做
- 说到Inverse RL,讲了下DAgger
- 介绍了GAIL以及AIRL的一系列工作
- 平时打游戏吗 => 玩 => 面试官说那么我们部门做的东西你应该蛮感兴趣的,你可以回去搜一下KPL比赛
二面
这次是目前为止遇到过的所有面试中,问问题最详细最深刻的一次,对于某一大类方法的研究络与发展历程,从每个算法的motivation到formulation,求解优化的细节,算法的本质,不同方法之间的比较,以及一些包含个人理解的开放性问题。诸如此类问题,不仅要求个人对某一个领域的问题有很深入的思考,还要求表达上思维的流畅连贯
- 怼项目,面试结束之后复盘发现,其实面试官问的有关项目的一连串问题,是希望我可以按照一篇学术论文的思路,将整个项目的历程组织起来的:
- Background & Motivation: 项目中用到的方法既然是参考别人的paper做的,那么你如何理解这次项目与别人paper中遇到的问题的差别?
- Related works: 传统上其他类似的视觉任务遇到这种问题是怎么做的 => 介绍了RNN as CRF,PSPNet,DeepLab
- Our approach: 既然你的问题与语义分割不同,为了解决task-specific problems你们做了哪些改进 => 为什么这样设计网络结构 => dense CRF具体怎么实现的
- Conclusion & Future works: 做完这个项目你觉得里面还有什么问题是待解决或未解决的
- 怼论文,之前有没有人做过类似的工作,与自己的方法比较,还有一些论文的琐碎细节问题
- 详细介绍深度学习网络结构的发展历程,从AlexNet到VGG再到ResNet再到DenseNet => 延伸问题:为什么DenseNet效果可以比ResNet更好
- 介绍深度学习优化方法的研究脉络与发展历程,从SGD到Momentum再到Adagrad和RMSProp,最后详细讲Adam
- 了解传统机器学习吗 => 了解 => 那你来讲讲SVM吧 => balabala => 如何解决线性不可分问题 => balabala
- 两个数组取交集,讲算法,推复杂度(
貌似推错了 - 详细问了有关RL的一系列问题,分value-based方法和policy-based方法
- policy-based方法和value-based主要的区别在于哪里 => 从Bellman equation开始各种胡扯
- value-based方法学习的目标是什么
- 讲policy-based方法的研究脉络与发展历程 => 从policy gradient theorem讲到REINFORCE,从DDPG讲到A2C,从TRPO讲到PPO
- 追问一:value function在TRPO中的作用是什么
- 追问二:带value function的模型在优化时如何迭代
- 追问三:value function的loss可不可以和policy的loss放到同一个框架下
- 追问四:介绍PPO => 两种objective function
- 聊人生,为什么做RL => 觉得有趣
- 重复问了一面的问题,平时玩游戏吗 => 玩 => 玩什么游戏 => Dota2(腾讯的面试者里面上一个这样回答的已经被拉黑了~~
HR面
- 问我的具体研究方向 => RL强相关方向
- 由于我学校在上海,问我去深圳工作有没有问题
- 之前对腾讯有什么了解 => 看过AILab发的顶会文章,仰望大佬
- 有没有亲戚朋友之类的在深圳,将来考虑留深圳吗
- 什么时候可以开始上班
然后HR口头允诺了offer,面试结束,这次面试不超过十分钟
读者福利
读到这的朋友还可以私信我免费领取一份收集的Java核心知识体系文档及更多Jav进阶知识笔记和视频资料。
资料领取方式:点击链接加入Java高级架构交流
更多笔记分享
网友评论