2018年底到2019年初,第四范式(4Paradigm)公司的关于 AutoML 的综述文章。
文章系统地对 AutoML 领域给出了综述,从出现原因、问题定义、问题构成、基本策略、高级策略、应用、及总结等方面进行了全面的介绍。
arxiv:https://arxiv.org/abs/1810.13306v1
AutoML出现原因
如今,人工智能在推荐系统,手写数字,图像检测,语音系统等方面取得了长足的进步,但是离真正的自动化,智能化还有着很远的距离。机器学习当前在应用过程中仍需要大量的人工干预,这些人工干预表现在:特征提取、模型选择、参数调节等方面。AutoML 则试图将这些与特征、模型、优化、评价有关的重要步骤进行自动化地学习,使得机器学习模型无需人工干预即可被应用。如下图,AutoML希望人类可以拥有更多的精力去关心实际中产生的问题和最后算法的应用。
当前已经出现了一些AutoML工具,部分如下图:
Auto-sklearn在分类任务中,寻找合适的分类器和模型并优化它的超参。
neural architecture search(NAS),从2012年Alexnet取得巨大成功之后,网络结构层出不穷,但是设计网络结构难度高,工程量巨大,NAS则是为解决这一问题被提出。
automatic feature engineering(自动特征工程),传统机器学习中,特征工程尤为重要,往往会在很大程度上影响算法的性能。现有工作有Data Science Machine (DSM) ,ExploreKit 和FeatureHub. 商业产品有FeatureLabs .
AutoML定义
AutoML的核心任务:
Better performance
No human assistance
Lower computation budgets
基本的优化策略
一旦搜索空间确定,我们便可以实用优化器(optimizer)进行优化。这里,AutoML 主要回答三个问题:
1.选择的优化器可以作用在哪个搜索空间上?
2.它需要什么样的反馈?
3.为了取得一个好的效果,它需要怎样的配置?
简单的优化搜索方式包括 Grid Search 和 Random Search。其中 Grid Search 被广泛使用。
从样本中进行优化的方法主要包括启发式搜索、derivative-free 优化、以及强化学习方法。梯度下降法是一种重要的优化策略。
未来可能的研究方向:
提高AutoML的效率;
更明确的问题定义;
发展基本和高级的搜索策略;
找到更适合的应用。
参考:https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/83829288
网友评论