-
首先使用conda下载blat:
image.png
image.png - blat的基本了解:全称 The BLAST-Like Alignment Tool,可以称为"类BLAST 比对工具",对于DNA序列,BLAT是用来设计寻找95%及以上相似至少40个碱基的序列。对于蛋白序列,BLAT是用来设计寻找80%及以上相似至少20个氨基酸的序列。Blat是一种像BLAST一样的对齐工具,但结构不同。在DNA上,Blat的工作原理是将整个基因组的索引保存在记忆中。因此,BLAT的目标数据库不是一组GenBank序列,而是源自整个基因组装配的索引。
百度百科:https://baike.baidu.com/item/blat/2088564
blat工具使用教程:https://www.cnblogs.com/adawong/articles/7460300.html
BIAT网页使用
进入Blat - UCSC Genome Browser,点击tools,再点击blat,进入该页面,复制粘贴已有的序列。
image.png
点击submit,得出结果
image.png
-
先找到gatk的下载地址,然后用wget下载gatk:
image.png
image.png
解压: image.png
进入解压的文件夹内,并执行以下命令:
conda env create -n gatk -f gatkcondaenv.yml
image.png
image.pngsource activate gatk
.fa文件:文件具有.fa扩展使用FASTA格式,这是用于多种序列在一个文件中存储的文件中的类型。这些.fa文件包含有关的DNA序列和其他相关部件的科学信息的信息文件。
-
grep -v : 反向选择,亦即显示出没有 '搜寻字符串' 内容的那一行
grep命令参考文章:https://www.cnblogs.com/ggjucheng/archive/2013/01/13/2856896.html -
重复序列为小写,二代测序对重复性太多的序列没有作用。
-
samtools的用法:https://www.jianshu.com/p/15f3499a6469
samtools view .bam文件(二进制文件)| less -SN
less显示文本 -S :文件单行过长时超出部分不显示 -s:文件中出现连续空行时只显示一行,其余不显示 -N: 显示文件页时同时显示每行行号。
Sam与bam文件:一个序列比对到参考基因组的哪个位置的文件。
https://www.jianshu.com/p/9c99e09630da -
头文件:头文件或包含文件是一个文件,通常是源代码的形式,由编译器在处理另一个源文件的时候自动包含进来。一般来说,程序员通过编译器指令将头文件包含进其他源文件的开始(或头部)。
友情阅读推荐:
- 强烈推荐参加生信技能树(爆款入门培训课)全国巡讲 ,课程详情见:https://mp.weixin.qq.com/s/Z9sdxgvFj0XJjYaW_5yHXg 各大城市均有开课,随时随地报名。
- 生信技能树公益视频合辑:学习顺序是linux,r,软件安装,geo,小技巧,ngs组学!
B站链接:https://m.bilibili.com/space/338686099 - 学徒培养详见:https://mp.weixin.qq.com/s/3jw3_PgZXYd7FomxEMxFmw
网友评论