会议论文概览
大会论文下载网址和最佳论文介绍:http://www.eeworld.com.cn/mp/QbitAI/a57012.jspx
-
Neural Ordinary Differential Equations
(1)作者:Ricky T. Q. Chen, Yulia Rubanova, Jesse Bettencourt, David Duvenaud。
(2)这篇论文来自加拿大多伦多大学Vector Institute,一作Ricky (Tian Qi) CHEN,本硕毕业于加拿大不列颠哥伦比亚大学,2017年迄今在多伦多大学读博。
(3)通过一种新的深度神经网络模型,采取自适应来构建归一性,无需对对数据进行分类或排序,就可以使用黑盒ODE求解器进行端到端训练。 -
Nearly Tight Sample Complexity Bounds for Learning Mixtures of Gaussians via Sample Compression Schemes
(1)作者:Hassan Ashtiani、Shai Ben-David、Nicholas Harvey、Christopher Liaw、Abbas Mehrabian、Yaniv Plan。他们来自加拿大麦克马斯特大学、滑铁卢大学、不列颠哥伦比亚大学、麦吉尔大学等。
(2)通过新的相关分布压缩来进行分布式学习,解决了表征学习分布类的样本复杂性。 -
Optimal Algorithms for Non-Smooth Distributed Optimization in Networks
(1)作者:Kevin Scaman、Francis Bach、Sébastien Bubeck、Yin Tat Lee、Laurent Massoulié。他们来自华为诺亚方舟实验室、INRIA、微软研究院、华盛顿大学等机构。
(2)在两种情况下研究了分布式优化的最优收敛速度,并提出了第一个最优分散算法:多步原始对偶(MSPD)。 -
Non-Delusional Q-Learning and Value-Iteration
(1)作者:Tyler Lu、Dale Schuurmans、Craig Boutilier,他们全都来自Google AI。其中一作Tyler Lu本硕毕业于加拿大滑铁卢大学,博士毕业于多伦多大学。
(2)提出了新的策略一致性概念,结合多项数据集,解决大规模强化学习的妄想偏见问题。 - 时间检验奖,颁发给2007年的一篇论文:The Tradeoffs of Large-Scale Learning。
作者:Leon Bottou、Olivier Bousquet,分别来自NEC美国实验室和Google。
论文类别梳理
- 一.图模型graph很火,至少有45篇graph文章和4篇topic方面的文章。
- 二.变分(Variational)非常火 ,至少有35篇的文章。
- 三.现在机器学习慢慢朝着推理(39篇Inference和6篇reason)方向发展。
- 四.强化学习的文章也比较多,41篇reinforce,5篇reward,22篇policy和5篇Imitation Learning。
- 五.11篇元学习(meta-learning)的文章,7篇vc维(pac-learning)理论方面的文章,9篇可解释性(interpret)方面的文章。
- 六.至少63篇关于GAN网络方面的文章。
- 七.8篇video和11篇3D方面的文章,video understanding可能是下一个需要突破的task。
- 八.5篇脉冲神经网络(spiking Neural Networks)方面的文章,3篇Capsule方面的文章。
- 九.有大概19篇跨媒体(文本与语音,文本与视觉以及视觉关系)方面的文章,朝着reason,knowledge和graph方向发展。
- 十.Yoshua Bengio,Yann LeCu和Geoffrey E Hinton三位大仙共有7篇文章,有必要关注一下meta-learning。
亮点论文选读: http://dy.163.com/v2/article/detail/E1K8CI3B05313F6W.html
会议论文趋势
- 趋势1:在NeurIPS 2018的论文集中搜索“optimization”,得到了61个结果。由此可见,通过底层优化算法,用更好的模型让AI以更小的数据代价,更精准地解决问题,正在成为集体做功的方向。
- 趋势2:Google(包括Deepmind)仍然是毋庸置疑的AI“霸主”,以 137 篇论文成功斩获第一名,甚至将美国同行远远地甩在了身后。(但有不少纯烧钱的技术)(今年大会的主席Samy Bengio就是来自谷歌的科学家 )。“美国势力”还有不少强队,其中MIT(68篇)与斯坦福(57篇)领衔学术界,Microsoft(46篇)和Facebook(13 篇)领衔工业界。
- 趋势3:中国身影与新晋黑马。清华大学有 21 篇论文,论文数量排名第十。南京大学的张利军就有 3 篇论文被收录,周志华等人提出了无组织恶意攻击检测算法UMA,CMU的教授邢波和微软研究院的朱泽园也有多篇论文榜上有名。华为捧回最佳论文奖,阿里iDST(数据科学与技术研究院)就霸气演示了全中文demo,腾讯AI Lab则以 17 篇文章被收录的实力与美国AI军团一较高下。在NeurIPS的AutoML挑战赛中,来自印度的团队Autodidact.ai 也成功出道,取得竞赛第一名(清华、中南大学等队伍摘得亚季军)。
人工智能假肢挑战赛(AI for Prosthetics Challenge)
引自:http://baijiahao.baidu.com/s?id=1604230073404592834&wfr=spider&for=pc
NeurIPS 2018共8项赛事
- 终生机器学习中的 AutoML(AutoML for Lifelong Machine Learning)
- 对抗性视觉挑战(Adversarial Vision Challenge)
- 对话智能挑战赛(The Conversational Intelligence Challenge 2,ConvAI2)
- 机器学习轨迹挑战(Tracking Machine Learning Challenge)
- Pommerman(Pommerman)
- 分布倾向性方面的挑战(InclusiveImages:A challenge of distributional skew, side information, and global inclusion)
- AI 驾驶奥林匹克赛(The AI Driving Olympics)
- AI 在假肢中的应用(AI for prosthetics)
下面关于《AI for Prosthetics Challenge》的内容转载自《雷锋网》:https://www.leiphone.com/news/201811/IKNTszt1RqDMdrIL.html
AI for Prosthetics Challenge是斯坦福大学神经生物实验室与 EPFL 联合举办了一场强化学习赛事,通过将强化学习应用到人体腿部骨骼仿真模拟模型的训练,以加快人体假肢领域的相关研究。
来自百度 NLP 团队的 Firework 一举击败全球 400 多支参赛团队,以 9980.46 的得分夺得冠军,领先第二名高达 30 多分。
7 月份启动,全球 400 多技术团队中,既有上届冠军、由 “RNN之父”Juergen Schmidhuber 创立的 NNAISENSE,也有阿里巴巴、Yandex 等巨头。
今年的比赛中,赛会组织者提供了一个人体骨骼-高仿模型,该模型是斯坦福国家医学康复研究中心研发的 Opensim 高仿模型,拥有人类腿部绝大多数真实骨骼、关节和肌肉的精细仿真。参赛者需要根据该模型中多达 100 个以上的状态,来决定模型肌肉的信号,然后控制该模型的肌体行走。
在去年的第一次挑战赛主要比谁跑得快,今年将模型从2D改为3D,还引入带有假肢的模型且假肢不可控制,且规则要求不断切换速度。使得模型控制难度大大增加。
在此次比赛中,百度的表现。
(1)首先通过上千台机器的 CPU 集群来加速模拟环境,利用 RPC 机制进行机器间通信,从而能在高性能 GPU 上进行高效的模型训练。
(2)其次,利用Target Driven Deep Deterministic Policy Gradient (Target Driven DDPG),使得模型能够应对较大空间和连续动作空间的挑战,最终也使得一个单一模型能够学习多种速度和姿态。
(3)第三,在算法层面,通过 multi-head bootstrapping,能够更高效的对巨大的解空间进行探索(Exploration),同时还将旋转不变性等各类特征处理方式,以及不断实验累计的各类 reward shaping 方法应用其中。
正是这些关键技术的综合应用,让百度能以 9980 的高分一举夺冠。据悉,早在本次比赛以前,百度已经将强化学习技术应用于信息流推荐、广告展现、搜索排序等大规模工业级场景。
另外,据说百度是首次参赛就获奖,很给国人挣脸耶。
强化学习精选文章导读
Deep Reinforcement Learning for Solving the Vehicle Routing Problem (用深度强化学习求解VRP问题)
-
作者是来自美国Lehigh University, Department of Industrial Engineering的Mohammadreza Nazari等四位。
-
文章概要:这篇文章的主要工作是用深度加强学习(DRL)提出了求解各类型组合优化问题的框架,并将其用于求解车辆路径问题(VRP)。基于这一目的,作者用马尔科夫决策过程(MDP)公式来表述这个问题,最优解就可以看成一系列决策。通过用DRL来提高解码理想序列的概率,从而得到近似最优解。该模型采用的是参数化随机策略,通过梯度算法策略来优化参数。训练后的模型能实时产生连续的一系列解,不需要为每一个新的算例重新训练。这篇文章的提出的方法与求解旅行商问题(TSP)较新的方法相比,训练和测试时间较快,且求解质量能得到保证,能得到几乎一样的解方案。此外,对于更一般化的VPR问题,这篇文章的方法在求解质量和计算时间(训练之后的时间)上都优于经典的启发式算法。这篇文章的框架还可应用于不同类型的VRP问题,如随机VRP;并有可能广泛地应用于组合优化问题。
-
模型对比:这篇文章的工作是对Bello等人[1]近期一篇论文的改进。通过改进Bello等人的研究框架,使其能够求解包含VRP问题在内的各类组合优化模型。Bello等人提出用指针网络[2](Pointer Network)解码这个解。指针网络的缺点在于它假设系统是稳定不变的,而VRP问题中的需求有可能随时间变化,如图1中的所示。如果需求变化了,为了计算下一个决策点的概率,需要更新整个指针网络。为了解决这个问题,作者提出了一种比指针网络更简单的方法,即一个带有注意力机制(attention mechanism)的递归神经网络(RNN)解码器。如图2所示,左边的嵌入层将输入映射到高维的向量空间,右边的RNN解码器存储解码序列的信息。然后,RNN隐含状态和嵌入输入使用注意力机制在下一个输入上生成概率分布。
-
模型亮点:本文所提出的模型在求解VRP中的优势如下:
(1)利用自我驱动的学习过程,只需要根据输出结果进行奖励计算。也就是说,只要我们能够通过观察奖励,并验证生成序列的可行性,就可以学习想要的元算法。例如,如果不知道如何求解VRP,但是可以计算给定解的成本,就可以使用本文提出的方法。
(2)对问题的变化具有鲁棒性。与许多经典的启发式方法不同,本文提出的模型随问题规模增大表现较好,并在求解时间上具有较高的优越性。此外,当问题的输入改变时,该模型能够自动更新解。
(3)不需要距离矩阵。使用经典的VRP启发式算法,往往需要重新计算整个距离矩阵,并且必须从头重新优化系统。这通常是不切实际的,尤其在问题规模较大的时候。本文所使用的模型不需要进行距离矩阵的计算,将极大提高计算效率。
网友评论