模式识别机器学习的发展方向

作者: 刘璇光 | 来源:发表于2018-11-06 19:57 被阅读0次

认知方法论笔记（十四）
模式识别机器学习的发展方向
机器学习
模式识别与机器学习(一)
Polynomial Curve Fitting 多项式曲线拟合
armadillo矩阵库安装支持openblas
模式识别
笔记
机器学习与模式识别
模式识别和机器学习

姓名：刘璇光学号：15020150039

转载自： 知乎https://www.zhihu.com/question/21644900/answer/19079389 ，有删节

【嵌牛导读】：模式识别机器学习的一些心得体会

【嵌牛鼻子】：模式识别机器学习深度学习

【嵌牛提问】：模式识别机器学习的发展方向？

【嵌牛正文】：

有几个方向值得去关注：

1. Deep learning (深度学习）, 这是近年来最火的研究方向，但是个old idea, 其实就是基于神经网络. 之所以以前没有受到太多得关注(至少比现在)是因为计算量太大，当时的硬件难以去处理那么多的计算量。但随着硬件和算法上的突破，近年来迅速成为了业界最热的研究方向。目前已经应用到了语音识别，图像识别，自然语言处理等领域。当然，让它受到这么多的关注主要原因还是它的准确率，尤其是在图像识别和语音识别上取得了很大的突破。从Intution的角度来看，机器学习的本质就是为了去学习能够把数据（observation)有效地解释的函数（Function), 而且恰好深度结构的神经网络可以表示出（capture)非常复杂的数据之间的关系（function). 另外，深度学习最大的好处就是无监督学习（unsupervised learning), 可以直接用它来学习数据的特征。虽然深度学习取得了很大的成就，但仍然处于刚刚起步阶段。有很多的问题值得去研究：

自然语言处理上的应用，尤其是机器翻译（Machine Translation). 这个估计是下一个深度学习上重大(?)的突破，很多学者都在从事这方面的研究。

大规模学习。这个一直是深度学习领域重要的分支。有效地，快速的，正确地学习深度模型是非常具有挑战性的。

深度学习在其他模型上的应用。比如去年的Deep Gaussian Process就是比较好的例子。

深度学习在time series(不仅仅是语音识别)上的应用。目前很少有论文在这个领域。HongLak Lee有几篇论文值得去看。

其他的应用

但是，有些人还是对深度学习表示比较悲观，觉得深度学习不能解决机器学习最为fundamental的问题。我们要知道，机器学习以前也有过kernel时代。

2. 大规模学习(Large Scale Learning). 现在是大数据时代， TB, PB级别的数据到处可见。然而训练机器学习算法是非常expensive的。有几个主要的方向是：

Stochastic method. 这种方法适用于online learning, 每次只把一部分数据load到内存中，然后去update模型。这种方法的好处是可以有效地处理大数据。在这个领域，first order（gradient method)和second order(newton's method)算是主流的优化方法，最近几年很多论文都是在讨论这些方法和改进。

并行/分布式处理(Parallel/Distributed). 用并行和分布式的方式去提高学习速度。经典的例子就是用这种方法去提高深度模型的学习速度。还有很多较复杂的算法值得去研究。想研究这些问题，需要一些系统方面的技能。

搭建分布式平台。 Hadoop当然是目前的主流，但它并不是最合理的方法。比如很多复杂的算法，无法再Hadoop上有效地运行。后来Carlos Guestrin的实验室做出来的Graphlab算是个比较出色的框架。在这个领域，很多还是open questions.

3. Graphical Models, Bayesian Methods。这个领域也是随着硬件的发展而迅速崛起的领域。每年都有很多论文在讨论各种图模型（Graphical Models)。目前还是很多人在做有关Bayesian Network, Markov Random Fields的研究。至于Bayesian，它也是非常有效地方法。最主要的应用还是在防止overfitting. 它不同于ML,MAP估计，Bayesian可以考虑到所有的参数空间（parameter space)，相当于做regularization. LDA是最为经典的例子，很多很多的论文建立在LDA模型之上（不得不承认，很多都在灌水). 有些有意思的方向：

对于给定的应用，提出合理的图模型。除了计算机领域，其他一些领域比如生物学，心理学，金融学，都可以用到图模型来解决一些数据上的问题。

大规模学习Bayesian Models. 主要有两个子分支，一个是MCMC，另一个是Variational Bayes. 特别是mini-batch MCMC和Stochastic variational Bayes是比较火的领域。可以试图用这些方法去解决已有的比较复杂的贝叶斯模型。值得研究的一个open problem是怎么去并行化这些优化算法。

很多Bayesian方法都在讨论Conjugate prior, 怎么有效地去学习non-conjugate模型也是值得去研究的问题。

4. Learning Theory. 它的重点是PAC learning. 核心问题是：我们需要多少数据，才能够学习出来的模型可靠（reliable). 这些理论方面的论文可以去SODA, COLT这种会议去搜索。

5. 如果喜欢应用领域，可以考虑一下几种应用

推荐系统（Recommender System). 这算是机器学习领域里最为成功的应用。但是还是有很多东西值得去研究。推荐系统最重要的问题是cold start 问题，就是去解决新用户，新商品的问题。还有怎么把heterogeneous的信息有效地结合在模型本身上一直是个open problem. 在推荐系统问题上，最常见的方法是matrix factorization，它的各种提高版本出现在今年来很多论文上。

文本挖掘。很多经典的问题，比如opinion mining, text summarization, information retrieval..etc)

Display Advertisement. 就是投放广告上的应用。要知道，GOOGLE,BAIDU大部分的钱是来自于广告上的收入。核心问题就是去解决：合理的选择广告，提高用户点击率。

社交网络分析。比如 spam detection, geo-location analysis, social influence analysis, causal analysis, link prediction, recommendation using social network information, study of evaluation of social dynamics. etc... 可以去看看CIKM和SIGIR这些会议的文章。

金融上的应用。预测价格，预测financial event. Google trends analysis, etc.

E-commerce上的应用: fraud transaction detection，等等。

系统上的应用： Power consumption analysis, 系统bug的检测（用一些causal analysis）

除此之外，机器学习在航空航天（比如NASA)，军事上都有一些身影。