1.CSV(Comma-Separated Values,逗号分隔的值)是什么CSV 文件入门指南 - 知乎 (zhihu.com)
2.质谱:简单说就是先让分子电离,然后加一个电场,不同荷质比物质在磁场中跑的距离不一样或轨迹不一样这样我们就得到这个物质了。但分子是有可能具有同分异构体的,所以就有了多级质谱或硬电离技术,核心思想就是把分子搞成碎片,因为碎片跟结构是有关系的,所以可以用来定性。现实样品通常是混合物,除了单纯依赖质谱进行分离,另一个思路就是耦合其他分离手段,最常见的就是接一个色谱柱,色谱柱可以理解成一个灌木丛,有的分子不与灌木丛作用很快就过去进质谱了,有的则被灌木丛阻挡,这样同时进样不同时间出峰也可以用来定性。现在的离子淌度质谱则是在电离后接了个迁移板,不同离子淌度物质会在这里实现第三次分离。当然,配合紫外荧光等方法,这个多维度检测的游戏还有很多玩法,但这些玩法要么灵敏度不够,要么有点贵,常见的还是色谱质谱方法进行定性定量,这样我们实际上有三维数据,保留时间、荷质比与响应。最后面那个一般不能拿来定性而更多用来定量,前面两个维度其实就是小分子分析的核心。
GCMC的基本参数介绍气质联用GCMS-科学指南针 (shiyanjia.com)
机器学习在代谢组学中的应用演示 - Miao Yu | 于淼 (yufree.cn)读入CSV数据→用enviGCMS包的getmzrtcsv函数读入数据,使数据标准化→可视化峰数据,将荷质比与保留时间展示出来→主成分分析(PCA)(主成分分析那些事儿 - Miao Yu | 于淼 (yufree.cn))(【中字】主成分分析法(PCA)| 分步步骤解析 看完你就懂了!_哔哩哔哩_bilibili)
3.非靶向代谢组学数据预处理(非靶向代谢组学数据分析方法总结-CSDN博客)
采集的数据经过处理,可转化成各个信号峰的相对含量值表,这个表一般形式为:每一行代表一个信号(可由RT[保留时间]和m/z[质荷比]确定一个信号峰)在各个样本中的相对含量,也就是说,每一列代表每个样本中各个信号的性对含量(前几列除外,表示各信号的RT、m/z等信息)。每个信号可用RT值和m/z值组合进行命名。
对于得到的这个表,我们常常进行如下3个预处理操作:信号峰注释、标准化校正、质控。
信号峰的注释:可以对同位素峰、加合物峰进行注释,甚至可以初步鉴定部分信号峰所对应的代谢物名称。
标准化校正:可分为批次内校正和批次间校正。需要校正是因为仪器不稳定等情况,可能使信号峰的相对含量出现误差。校正的方法有几种,目前一般首选基于QC样本的标准化方法,即:将所要采集的所有样本取等量混合起来,组成QC样本,然后在采集数据的时候,每隔一定数量的样品,插放一份QC样本。因为QC样本都是一样的,因此可以用QC样本来反映数据采集过程中信号的偏移规律。校正的工具,目前主要推荐中科院ZhuLab开源的MetNormalizer(MetaboLights - Metabolomics experiments and derived information (ebi.ac.uk)朱正江研究员的博士生申小涛师兄开发)。
质控:对每个信号峰的QC样本求RSD(相对标准偏差),通常需舍弃RSD超过30%的信号峰(数据质量太差)。
4.发现了Josh Starmer大神的b站账号,果然学习资源是开放而无限的。
网友评论