第二十三章:化学信息分析技术
第一节:实验设计与优化
实验设计与优化是研究如何最有效地选择实验点,并通过实验点所得到的结果,采用信息分析获取最佳实验结果的实验点条件
分为系统实验设计和序贯实验设计
单纯形法
基本思路:某个体系有n个待优化因素,则设计一个n维空间中的n+1个顶点作为单纯形,每个顶点做标即一种实验条件,通过在单纯形的各个顶点条件下进行实验,所得实验响应函数值进行比较,淘汰其中函数值最差的实验点,并认为最差点的反对点方向是改进实验结果的方向,在该方向新增一个实验点,作为下一步实验条件参考,通过反射变换使单纯形不多移动到响应较好的区域,脂质按照预定的精确度充分接近最优点。
(看书上的双因素实验)
遗传算法
遗传算法GA基本原理
遗传算法基本过程
- 产生初始群体
- 评价适应度的计算
- 遗传操作:选择、交叉、变异
第二节:数据预处理方法
在采用化学计量首夺进行多元校正或多元分辨等之前,必须先对数据进行预处理
平滑
- 窗口移动平均法:窗口太小,效果不佳;太大失真;丢失边界信息,误差大
- 窗口移动多项式最小二乘拟合平滑法:在窗口移动运算中引入多项式最小二乘拟合
求导
- 直接差分法:
- 多项式最小二乘拟合求导法:
不等性方差噪声扣除
不等性方差噪声即大小随分析信号而变化,在各个测量点上方差不同的测量噪声
- 针对二维色谱数据中那些处于色谱峰的光谱进行降幅处理
- 采用平滑方法消除不等性方差:粗糙度惩罚法
色谱峰偏移校正
色谱的内标峰校正法
- 一点校正法
- 两点校正法
- 多点校正法
一点法对非线性推移校正结果较差,两点法可以部分校正非线性推移
色谱峰的外标线性回归法
组分在同一色谱仪的不同色谱柱氧的保留时间为简单的线性关系
同一根色谱柱在不同液相色谱仪上的保留时间也呈线性关系
一维色谱的外标线性回归法可以校正同一型号色谱柱间的差别
代谢组学数据的预处理
归一化法
数据转换
提高数据集正态分布性,矫正奇异值
非线性转换
校正不等性噪声
数据标准化
- 中心化:均值中心化
- 标度化:自标度化
第三节:模式识别
模式识别基本概念
模式识别是将研究对象按内在规律分类的一门学科,其所研究对象包括图像,信号波形及其他任何形式需要分类的测量值
分为有监督学习系统(贝叶斯决策)和无监督学习系统(聚类分析法)
贝叶斯决策
统计决策理论:
与经典统计学的差别:
贝叶斯决策的要求(已知条件)
贝叶斯公式:
分为:基于最小错误率的贝叶斯决策、基于最小风险的贝叶斯决策、Neyman-Pearson决策、极大极小决策
- 基于最小错误率的贝叶斯决策
- 基于最小风险的贝叶斯决策
聚类分析法
聚类的统计量
基本思想:
- 距离
- 明氏距离:若m=2变成欧式距离
- 马氏距离:
- 相似系数:
- 夹角余弦
- 相关系数:实际上是适量数据中心化后的夹角余弦
聚类分析的分类
- 系统聚类法
- 动态聚类法
- C-均值算法
网友评论