文献中遇到的不懂得数据库或者专业名词:
1.ExAC数据库:
官网:http://exac.broadinstitute.org
ExAC数据库的全称是(the Exome Aggregation Consortium,外显子组整合数据库),该数据库旨在汇总和协调各种大规模测序项目的外显子组测序数据,并为更广泛的科学界提供摘要数据。所有数据均基于GRCh37 / hg19。2016年8月,Nature刊登了一篇ARTICLE,主要重点就是哈佛-麻省理工Broad研究所的科学家公布了60706名不同种族个体的外显子序列。整合了多个研究项目的外显子集合协作组(ExAC)分析了来自不同祖先的共60706位个人的高质量外显子测序数据,通过深度分析制作的人类遗传变异数据库ExAC并制定了每个序列变异的致病性的精确度量标准。ExAC数据库可以用来过滤潜在的致病性突变,避免遗传误诊以及发现更多遗传性疾病的致病因素及根源提供了有力的工具。
作者:oddxix
链接:https://www.jianshu.com/p/da8ddd7e4903
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。
2.Biopython计划是一个使用python来开发计算分子生物学工具的国际社团。 它可以鉴定酸性,芳香族,碱性,带电荷,螺旋仿射,疏水,极性,不带电的极性,片状仿射和转向仿射氨基酸的分数。以及估算蛋白质GRAVY(蛋白质疏水性预测分析),蛋白质的等电点和分子量。
3.SignalP(信号肽预测工具),可以预测信号肽的切割位点,最大的切割评分。信号肽分析结果的解读,链接:http://www.cbs.dtu.dk/services/SignalP-3.0/output.php
4.SwissProt数据库:SwissProt数据库中的所有序列条目都经过有经验的分子生物学家和蛋白质化学家通过计算机工具并查阅有关文献资料仔细核实。SwissProt数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。(来自百度百科)
5.SwissProt和TrEMBL的区别:http://www.360doc.com/content/17/1026/08/45848444_698191675.shtml
6.机器学习算法:机器学习算法就是运用了人工智能的技术,能够在大量的样本集训练和学习之后自动找出运算所需要的参数和模式。
例如:西瓜具有很多特征,且坏瓜和好瓜的特征都具有的特征都不一样,通过使用一定量的瓜来训练建立的模型,计算机可以从这些训练数据集中找出特定特征的瓜,并通过特征将将样本定义为坏瓜还是好瓜,训练好(准确率达到理想)之后,我们给予一个瓜,那该模型就会根据该瓜中的特征将瓜预测为好瓜还是坏瓜。
机器学习能够解决的问题:
1).分类问题,根据数据样本上抽取出特征,判定其属于有限个类别中的哪一个。如,垃圾邮件的识别,判定一封邮件是垃圾邮件还是正常邮件。
2).回归问题。根据数据样本上抽取出的特征,预测一个连续值得结果。如:某市3个月后得房价
3)聚类问题。根据数据样本上抽取出的特征,根据相似的特征让样本成团。如:新闻的分类,数据军事,还是娱乐,还是经济
机器学习算法的分类:
1).监督学习:输入的数据有相应的标签,如识别好瓜和坏瓜的的时候,会标注好瓜有哪些特征,坏瓜有哪些特征,模型会学习好瓜的特征是什么和坏瓜的特征是什么。
2).无监督学习:无监督学习与监督学习相反,输入的信息不知道是什么分类,不知道规则,无输出,结果就是寻找数据当中的规则。
3).半监督学习:介于监督学习和无监督学习之间,实际生活坏境中,人工标注数据成本很大,大部分情况下遇到的数据都是没有经过标签的,所以用半监督学习可以先少量标注一部分数据,然后寻找这部分数据特征,自动给剩下的数据标注标签。
7,Web of Science数据库和MEDLINE数据库的区别:MEDLINE是当前国际上最权威的生物医学文献数据库。
网友评论