在过去几十年里,机器学习领域发生了巨变。诚然,有些方法已经存在很长一段时间,仍然是该领域的重要方法。
由于监督学习有大量可用的方法,所以人们经常提出一个问题:最好的模型是什么?众所周知,这个问题很难回答,正如George Box所言,所有的模型都是不好的,但也都有一些可取之处。而判断模型有用与否则取决于手头上的数据。因此,这个问题没有统一答案。相比而言,下面这个问题要容易回答一些:最流行的模型是什么?这是本文的关注点所在。
从1950年至今的监督模型使用
为了分析纵向数据,我们将机器学习划分为两个阶段:早期(1950-1980)——只有少量模型可用;形成期(1980至今)——人们对机器学习的兴趣激增,开发了很多新模型。注意,以下图像只显示最相关的方法。
线性回归是1950 -1980年间的主要方法。相比之下,其他机器学习模型在科学文献中极少被提及。然而,从20世纪60年代开始,神经网络和树形判定分类法开始流行起来。还可以看到,逻辑回归尚未得到广泛的应用,在70年代末被提及的次数也只是略有增加。
监督学习模型在不同领域的流行度
将研究不同的群体是否依赖于不同的机器学习技术。为此,我们参考了三个科学出版物资料库:用于一般出版物的Google Scholar ,用于计算机科学出版物的 dblp ,用于生物医学出版物的PubMed。在这个三个资料库中,我们确定了13个机器学习模型的出现频率。结果如图3所示。
监督学习模型的总体使用情况
根据Google Scholar,五种最常用的监督模型是:
-
线性回归:3,580,000篇论文,占34.3%
-
逻辑回归:2,330,000篇论文,占22.3%
-
神经网络:1,750,000篇论文,占16.8%
-
树形判定分类法:875,000篇论文,占8.4%
-
支持向量机:684,000篇论文,占6.6%
总的来说,线性模型显然占主导地位,在监督模型的出现率中占50%以上。非线性方法紧随其后:神经网络以16.8%的论文提及率排名第三,接着是树形判定分类法(8.4%)和支持向量机(6.6%)。
文献中提到的参数模型(包括半参数模型)和非参数模型的所占比例。条形图表明,机器学习研究中所研究的模型(如计算机科学出版物所示)与所应用的模型类型(如生物医学和综合出版物所示)之间存在很大差异。
结语
针对这些知识内容我专门录制了俩个小时的视频,如果有兴趣学习人工智能的可以扫下方二维码进【公众号】领取!新年期间我们也会在公众号内资料大放送,另外回复【五福临门】可以领取新年大礼包!!
网友评论