此本来自自己硕士论文的综述部分。
1 FT-MIR检测技术介绍
-
傅里叶变换中红外光谱(Fourier transform mid-infrared spectroscopy,FT-MIR)是指光波数在400cm-1-4000cm-1之间的一段非分散光谱。原始红外光是分散的光谱,即仪器通过使用棱镜或光栅分离从红外光源发出的各个能量频率,其在通过样品之后,检测器测量每个频率的能量,结果由强度与频率组合的频谱表示,但这样的方法需要相当长的时间才能完成对样品的测量。
-
傅里叶变换红外光谱仪器通过使用干涉仪同时测量所有红外频率克服了上述的缺点。其可以通过透射率或反射率来分析样品,前一种是本研究采用的方法。检测的具体过程为,以碳化硅棒用作辐射源,从辐射源释放的光子被引导到干涉仪中,在那里它们接触分束器,分束器能将光子束“分裂”为两个,一半被传输到固定镜子,另一半被反射到移动镜子,在接触并被两个反射镜反射之后,光束在分束器处重新组合,产生干涉光谱,其再穿过样品并聚焦在探测器上,产生干涉图,其包含探测器响应的整个光谱区域上的信息,干涉图是镜面扫描光谱的强度与时间转换为最终的光谱,并通过傅立叶数学运算显示强度与频率的关系转型。
-
FT-MIR的主要优点有:(1)有效反映出具体官能团的对应吸收峰及其基频振动吸收值;(2)能定性的判别物质类别;(3)可定量的检测分析物质含量;(4)可鉴别出未知物质。其缺点:(1)不能检测细胞(因细胞对应的短波段与大多数材料相同);(2)传送光谱的材料昂贵。
2 基于FT-MIR的模型算法及模型评价
2.1 FT-MIR特征光谱选择的算法
FT-MIR在检测某特定物质时会根据该物质的官能键与官能团,产生属于该物质的特征波。研究表明在使用多自变量建立预测某物质模型的过程中,选出该物质特征波来作为自变量,不仅能提高模型预测的准确性,还能增强模型的稳定性(Leardi et al 2002, Zou et al 2010, Vohland et al 2014)。John等较早提出了特征选择主要分为两大类,第一类为过滤法,其是独立于预测变量的特征选择算法,并且单独度量各个自变量的重要性,过滤掉在数据分析中几乎没有用的特征;第二类为封装法,其是将所有自变量逐一添加或删除应用在某类算法中,根据模型结果找到最佳自变量组合(John et al 1994)。两者各有优缺点,过滤法速度快,但其不能根据建立模型的结果来分析自变量,而封装法能够结合建立模型准确性的结果来选择变量,但其计算量比过滤法大且有过拟合的风险(Saeys et al 2007)。但随后还出现了第三种嵌入法,其在算法构建中加入了特征波选择,与封装法类似,但其不能用于其他算法(只能适用筛选特征波的算法),优点在于比封装法降低了计算量(Saeys et al 2007)。所以比较合理的筛选光谱特征波方法是先使用过滤法缩小范围,再使用封装法或嵌入法筛选最终特征波。
2.2 定性判别模型和定量分析模型的算法
定性判别分析(Discriminant Analysis)是在已知特征与类别的训练集上建立判别模型,再使用判别模型对已知特征与未知类别的新数据进行分类预测。
定性判别分析根据判别准则可分为Fisher判别、距离判别和Bayes判别。Fisher判别是将多维数据投影到某一个维度上,使各类的总体之间最大限度分开,再选择合适判别规则将新的样本分类判别。距离判别是先计算出已知分类的各类别的重心,再对未知类别的数据计算其与各类重心的距离,与某类重心距离最近则归于该类。Bayes判别是由先验概率计算出后验概率,再根据后验概率分布对新数据作出统计推断。
定量分析(Quantitative Analysis)是通过某类算法使自变量能够较为精确地预测因变量的一种回归方法,且因变量一般为连续变化的数据,其一般分为线性、广义线性与非线性三种。主要有:偏最小二乘法(Partial least squares, PLS),主成分分析-线性判别分析(PCA-LDA),决策树(Decision Tree, DT),人工神经网络(Artificial neural network,ANN),支持向量机(Support Vector Machine, SVM),K最近邻算法(K Nearest Neighbor, KNN),逻辑回归(Logistic Regression, LR),随机森林(Random Forest, RF)。这8中算法的理论部分请查看机器学习部分11与12篇。
2.3 定性判别模型的评价与指标
定性判别模型的评价可使用混淆矩阵,混淆矩阵及其相关参数是最简单与最直观的评价指标之一,以二分类为例,混淆矩阵如表1-3,可基于混淆矩阵计算出判别模型的评价指标
image.png
推导出的参数有:
- 真正率(又称敏感度,召回率):预测对的正样本数占真的正样本数的比例,即:真正率=TP/(TP+FN)
- 假正率:预测错的负样本数占真的负样本数的比例,即:假正率=FP/(FP+TN)
- 假负率:预测错的正样本数占真的正样本数的比例,即:假负率=FN/(TP+FN)
- 真负率(又称特异性):预测对的负样本数占真的负样本数的比例,即:真负率=TN/(TN+FP)
- 准确性:预测对的样本数占总样本的比例,即:准确性=TP+TN/(TP+FP+FN+TN)
- 精确性:预测对的样本数占预测的正样本数的比例,即:精确性=TP/(TP+FP)
- 均衡准确性:预测某一类别对的样本数占相应类别预测的正样本数的比例。
2.4 定量分析模型的评价与指标
定量分析模型的评价指标主要有决定系数(coefficient of determination,R2 )和均方根误差(Root Mean Squared Error,RMSE),R2值越大表示模型越好(0≤R2≤1),RMSE越小表示模型越好(RMSE≥0)。
计算公式如下:
image.png
在不同数据集中,可分别计算出相应的R2与RMSE参数。在训练集中,其中公式(2)中n=样本数-主成分数-1时,全部数据建模的参数表示为校正R2C(Calibration coefficient of determination,R2C)与校正RMSEC(Root mean square error of calibration,RMSEC);当公式(2)中n=样本数-交叉验证时留出的样本数时,建模的参数表示为交叉R2CV(Cross-calibration coefficient of determination,R2CV)与交叉RMSECV(Root mean square error of cross-calibration,RMSECV);在测试集中,当公式(2)中n=样本数时,验证结果得到的参数为验证R2V(Validation coefficient of determination,R2V)与验证RMSE p (Root mean square error of validation,RMSEp)。
网友评论