模式识别与机器学习的关系
https://blog.csdn.net/qq_33414271/article/details/78682239
模式识别:自己建立模型刻画已有的特征,样本是用于估计模型中的参数。模式识别的落脚点是感知
模式识别是70年代和80年代非常流行的一个术语。它强调的是如何让一个计算机程序去做一些看起来很“智能”的事情,例如识别“3”这个数字。而且在融入了很多的智慧和直觉后,人们也的确构建了这样的一个程序。例如,区分“3”和“B”或者“3”和“8”。早在以前,大家也不会去关心你是怎么实现的,只要这个机器不是由人躲在盒子里面伪装的就好。不过,如果你的算法对图像应用了一些像滤波器、边缘检测和形态学处理等等高大上的技术后,模式识别社区肯定就会对它感兴趣。光学字符识别就是从这个社区诞生的。因此,把模式识别称为70年代,80年代和90年代初的“智能”信号处理是合适的。决策树、启发式和二次判别分析等全部诞生于这个时代。而且,在这个时代,模式识别也成为了计算机科学领域的小伙伴搞的东西,而不是电子工程。
模式识别是根据已有的特征,通过参数或者非参数的方法给定模型中的参数,从而达到判别目的的;机器学习侧重于在特征不明确的情况下,用某种具有普适性的算法给定分类规则
1 引言
人很容易认识自己的同类,能在人群中一眼认出熟人,能和别人交流,同时,人也能分辨不同的物体,具有记忆和学习能力,善于把握总结所见物体的特征或属性。可以说,人和动物的识别能力是极其平常的,但是,识别能力对最初的机器来说却是非常困难的。时代的推进需要机器具有甚至超过人或其他生物的识别能力,应用于人类社会各个不同领域,带来可观的效益。因此,模式识别应运而生。
2 模式识别的定义
什么是模式和模式识别呢?粗略地说,存在于外部世界中每一个需要识别的对象都可以称作一个模式。实际上,外部世界的事物只有通过人的视觉、听觉、嗅觉、触觉器官的感知才能够为人所认识,而模式则是指是通过对信号的采样、量化和处理后得到的关于识别对象描述的一组属性的集合,例如视觉识别对象的颜色、大小、形状,听觉识别对象的声音在各个频率上的能量分布等。而模式识别则是从工程的角度考虑,针对给定的任务和应用,研究如何使计算机具有识别能力的理论和方法。模式识别的目的是利用计算机对物理对象进行分类,在错误概率最小的条件下,使识别的结果尽量与客观物体相符合。
3 模式识别的历史
模式识别诞生于20世纪20年代,随着40年代计算机的出现,50年代人工智能的兴起,模式识别在60年代初迅速发展成一门学科。下面列举了模式识别的大事件:
(1)1929年G.Tauschek发明阅读机,能够阅读0~9的数字。
(2)20世纪30年代Fisher提出统计分类理论,奠定了统计模式识别的基础。因此,在20世纪60~70年代,统计模式识别发展很快,被识别的模式越来越复杂,特征也越多,就出现“维数灾难”,但由于计算机运算速度的迅猛发展,这个问题得到一定克服,统计模式识别仍是模式识别的主要理论。
(3)50年代Noam Chemsky提出形式语言理论,美籍华人付京孙提出句法结构模式识别。
(4)60年代L.A.Zadeh提出了模糊集理论。模糊模式识别理论得到了较广泛的应用。
(5)1973年 IEEE发起了第一次关于模式识别的国际会议“ICPR”,成立了国际模式识别协会---“IAPR”,每两年召开一次国际学术会议。
(6)1977年IEEE的计算机学会成立了模式分析与机器智能(PAMI)委员会,每两年召开一次模式识别与图像处理学术会议。
(7)80年代Hopfield提出神经元网络模型理论。近些年人工神经元网络在模式识别和人工智能上得到了较广泛的应用。
(8)90年代小样本学习理论。支持向量机也得到了很大重视。
4 模式识别系统组成
(1)数据采集与预处理
用计算机可以运算的符号来表示所研究的对象。预处理单元:去噪声,提取有用信息,并对输入测量仪器或其它因素所造成的退化现象进行复原。
(2)特征生成
经过数据采集得到的数据一般比较大,很难进行直接分类识别,需要对原始信息进行处理,找出描述不同类别对象之间差异的“特征”。
(3)特征提取与选择
对原始数据进行变换,得到最能反映分类本质的特征。目的是要降低特征维数。
(4)分类决策
在特征空间中用模式识别方法把被识别对象归为某一类别
5 模式识别的应用
模式识别是近30年来得到迅速发展的一门新兴的边缘科学,与它相关的学科有线性代数、统计学、概率论、机器学习、形式语言、图像处理和计算机视觉等等。模式识别的应用几乎遍及各个领域。
(1)科学应用
1)天文:天文望远镜图像分析、分辨率改进和大气损失去除。
2)地球和行星探测、大地测量与地图绘制。
3)卫星数据分析。
(2)生命与行为科学
1)人类学、自动细胞学、遗传研究。
2)考古学。
3)植物学、微生物学、昆虫学。
4)心理学。
5)信息管理系统。
(3)经济领域
1)股票交易预测。
2)企业行为分析。
(4)医学应用
1)医学图像分析。
2)放射性同位素检查。
3)药物作用。
(5)工程应用
1)特征识别。
2)语音分析。
3)产品缺陷检测。
4)污染分析。
(6)农业应用
1)收成分析。
2)土壤分析。
3)过程控制。
4)地球资源摄影。
(7)军事用途
1)空中摄影与遥感。
2)雷达和声纳信号检测和分类。
3)自动目标识别。
(8)安全领域
1)指纹识别。
2)人脸识别。
3)监视和警报系统。
《模式识别》Pattern Recognition 哈工大出版社 刘家锋
从工程角度考虑,针对给定的任务和应用,研究如何使计算机具有识别能力的理论和方法。模式指计算机通过对信号的采样、量化和处理之后得到的关于识别对象描述的一组属性的集合。
计算机识别的分类器,使用“距离”度量样本之间以及样本与类别之间的相似程度。距离和相似性度量:
距离满足:(1)非负性 d(x,y)>=0;(2)对称性 d(x,y)=d(y,x);(3)自反性 d(x,y)=0当且仅当x=y;(4)三角不等式 d(x,y)+d(y,z)>=d(x,z)
常见距离:
(1)欧式距离(Euclidean Distance):m维空间中两个点的真实距离。特征空间中x,y两点之间的直线距离。
(2)街市距离(City Block Distance):又叫曼哈顿距离,直观理解是城市街道上汽车行驶所走过的距离,国际象棋中车所走过的格数。
(3)切比雪夫距离(Chebyshev Distance):国王和王后所走过的两点之间最少的格数。
(4)闵可夫斯基距离(Minkowski Distance)
分类器的性能评价——评价指标
(1)识别错误率 Pe =me/m 这个分类器错误判别的概率
(2)拒识率:对非常有把握的样本判别它的类别属性,而对没有把握的样本拒绝识别。
(3)敏感性、特异性和ROC曲线
(4)召回率和准确率
网友评论