一、题名
肿瘤信息基因选择与分类方法研究(张红燕2015)
二、文章结构
摘要
ABSTRACT
缩略词表
第1章绪论
第2章肿瘤分类与信息基因选择
第3章基于BMSF的肿痛信息基因选择
第4章基于TSG的肿瘤信息基因选择
第5章基于χ2-IRG-DC的肿瘤信息基因选择
第6章结论与展望
参考文献
附录
致谢
作者简历
攻读博士学位期间科研学术成果目录
三、关键词及摘要解读
关键词
:肿瘤;基因表达谱;高维特征选择;支持向量机;卡方测验;直接分类
摘要
1、肿瘤是多基因与环境共同作用的结果,大规模基因表达谱技术的出现及其飞速发展为肿瘤研究提供了一种全新的技术平台。基于基因表达谱的数据挖掘对致病基因发现、肿瘤临床诊断、药物疗效判断和发病机理阐明等意义重大。肿瘤基因表达谱数据多具特征维数高、样本小或相对小、样本背景差异大、存在批次效应等非随机噪声、冗余度高、非线性、基因间存在互作效应等特点,传统的统计方法和模式识别方法应用受限。本文针对基因表达数据特点,围绕信息基因选择方法和分类器构建展开研究,主要结果如下:
-
(1)基于支持向量机发展了高维特征选择新方法二元矩阵重排过滤器BMSF
(Binary Matrix Shift Filter)。大多数信息基因选择方法只考虑单个基因或成对基因的作用,却未考虑多个基因之间的相互作用。本文提出的BMSF算法综合考虑了多基因间的互作关系,通过引入随机产生的一个中间(0,1)二元矩阵,将分类问题转化为回归问题,实现了核函数参数寻优前提下基于支持向量机的高维特征选择。在基因选择过程中,对保留在模型中的基因子集根据其在肿瘤分类中对其他基因的贡献情况进行递归优化并反复更新。对9个癌基因表达二分类数据集,BMSF均以较小的信息基因子集获得了远优于文献报道的留一法预测精度,所选信息基因子集能同时提高多个分类器的留一法预测精度。 -
(2)基于卡方测验发展了鲁棒的高维特征选择与无需训练的直接分类新算法TSG(Top-scoring genes)。预测精度既与特征选择有关,又受分类器的影响;训练是多数分类器产生过拟合的主要原因。主流算法TSP(Top score pairs)家族既是特征选择方法又是分类器,本文克服TSP不能反映样本大小、所选信息基因恒为偶数个、多分类时算法繁琐等缺陷,提出TSG算法。TSG提出并实现了基于转导推理、无需训练的直接分类,其决策过程为:先假定某个待测样本属于正(+)类,合并待测样本与训练样本得卡方值Chi+;再假定待测样本属于负(一)类,合并待测样本与训练样本得卡方值Chi-;如Chi+>Chi-,则待测样本属于正类,反之,则判为负类。多分类类推。TSG的特征选择过程为:先选取出得分最高的基因对TS2作为初始信息基因子集,接着每次从剩余的基因中挑选一个与已入选基因联合效应最好的基因添加到信息基因子集中,并根据训练集的留一法精度自动确定最终的信息基因子集。TSG对9个二分类和10个多分类数据独立预测均获得了明显优于文献报道的结果,特别是其训练集留一法预测精度与独立测试集预测精度相当接近,在部分数据集上独立测试精度甚至优于训练集留一法预测精度,显示TSG独特的、无需训练的直接分类能有效控制过拟合。
-
(3)基于互作与卡方测验发展了信息基因选择新方法χ2-IRG-DC(Chi-square test-based Integrated Rank Gene and Direct Classifier)。χ2-IRG-DC特征选择过程为:先利用单基因卡方值和成对基因互作卡方值,计算基因的综合加权得分,得基因的重要性排序;再基于χ2--DC分类器序贯引入排序基因,并依训练集的留一法精度为第一标准、卡方增益为第二标准去冗余,获得了更为鲁棒的信息基因子集;最后基于χ2-DC和信息基因实施独立预测。χ2-IRG-DC继承TSG优点的同时,进一步通过基因综合加权评分大幅降低了算法复杂度,通过引入第二标准卡方增益增强了特征选择的鲁棒性。对9个二分类和10个多分类肿瘤基因表达谱数据集的独立预测精度表明,χ2-IRG-DC模型明显优于文献报道;作为特征选择方法,χ2-IRG-DC明显优于mRMR、SVM-RFE、HC-K-TSP、TSG等四种参比特征选择方法;作为分类器,χ2-DC明显优于NB、KNN等参比分类器,与SVM分类器性能可比。
本文方法对于推进高维数据特征选择和肿瘤分类识别具有重要理论意义和实用价值。
网友评论