1.生物信息学常见数据格式
(1)fasta
一种基于文本用于表示核酸序列或多肽序列的格式。其中核酸或氨基酸均以单个字母来表示,且允许在序列前添加序列名及注释
1.1
(2)fastq
一种存储了生物序列以及相应的质量评价的文本格式。测序的原始序列
1.2
(3)gff
基因组注释文件记录序列中转录起始位点、基因、外显子、内含子等组成元件在染色体中的位置信息;现在用得比较多的是第3版,即gff3
1.3
(4)gtf
1.4
2.文本处理
(1)grep
2.1.1
2.1.2
2.1.3
2.1.4
2.1.5
2.1.6
(2)正则表达式
2.2.1
2.2.2
2.2.3
2.2.4
2.2.5
(3)sed
2.3.1
2.3.2
2.3.3
在第一行后面添加一行,保存的话在这句话后面加 >文件名
第一行和第二行的前面各添加一行
删除第一行和第三行
第二行前面和后面各添加一行
把第二到四行替换为星星
把is替换为IS,g是全部替换,不加g只替换每行的第一个
(上)替换第二个
(下)只替换第一行的
只替换一三间隔的行,即隔两行
替换有www的行
grep匹配
提取含有ee的行 -n不打印默认参数
提取含有ee的行,并将ee替换为EE
一个字母一个字母的替换,前后必须一样长
(4)awk
1)概念
2.4.1.1
2.4.1.2
原文件样子
第九个字段的原样子,cut 只将tab键分开的作为一个字段
print 凡是空字符就分开字段
和cut 效果一样
取9 10列,awk中各列独立可重复取或者不按顺序取,在列之间写"/t"即为添加tab空格
匹配UTR
在开始之前打印find UTR feature 出来 ,最后打印end出来,以UTR匹配
2)内置变量
2.4.2
-
例:
原
开始之前指定分隔符为tab键,所以列和列之间是空格就没被分开
加上NR,就是打印出行号
3)条件和循环语句
2.4.3
-
例:
如果第三列是gene,是的话就打印出来
如果第三列是gene就打印出来,如果不是就打印$3加is not gene
判断是不是gene,是的话就打印出起始位置等列
for循环,paste 使一行中的放在一行
4)数学运算
2.4.4
-
例:
原
计算exon的长度
除法
int 取整,加0.5即为四舍五入
3.Linux上的文本编辑器vim
3.1
3.2
3.3
3.4
3.5
3.6
3.7
网友评论