1.生物信息学常见数据格式
(1)fasta
一种基于文本用于表示核酸序列或多肽序列的格式。其中核酸或氨基酸均以单个字母来表示,且允许在序列前添加序列名及注释

1.1
(2)fastq
一种存储了生物序列以及相应的质量评价的文本格式。测序的原始序列

1.2
(3)gff
基因组注释文件记录序列中转录起始位点、基因、外显子、内含子等组成元件在染色体中的位置信息;现在用得比较多的是第3版,即gff3

1.3
(4)gtf

1.4
2.文本处理
(1)grep

2.1.1

2.1.2

2.1.3

2.1.4

2.1.5

2.1.6
(2)正则表达式

2.2.1

2.2.2

2.2.3

2.2.4

2.2.5
(3)sed

2.3.1

2.3.2

2.3.3

在第一行后面添加一行,保存的话在这句话后面加 >文件名

第一行和第二行的前面各添加一行

删除第一行和第三行

第二行前面和后面各添加一行

把第二到四行替换为星星

把is替换为IS,g是全部替换,不加g只替换每行的第一个

(上)替换第二个
(下)只替换第一行的

只替换一三间隔的行,即隔两行

替换有www的行

grep匹配

提取含有ee的行 -n不打印默认参数

提取含有ee的行,并将ee替换为EE

一个字母一个字母的替换,前后必须一样长
(4)awk
1)概念

2.4.1.1

2.4.1.2

原文件样子

第九个字段的原样子,cut 只将tab键分开的作为一个字段

print 凡是空字符就分开字段

和cut 效果一样

取9 10列,awk中各列独立可重复取或者不按顺序取,在列之间写"/t"即为添加tab空格

匹配UTR

在开始之前打印find UTR feature 出来 ,最后打印end出来,以UTR匹配
2)内置变量

2.4.2
-
例:
原

开始之前指定分隔符为tab键,所以列和列之间是空格就没被分开

加上NR,就是打印出行号
3)条件和循环语句

2.4.3
-
例:
如果第三列是gene,是的话就打印出来

如果第三列是gene就打印出来,如果不是就打印$3加is not gene

判断是不是gene,是的话就打印出起始位置等列

for循环,paste 使一行中的放在一行
4)数学运算

2.4.4
-
例:
原

计算exon的长度

除法

int 取整,加0.5即为四舍五入
3.Linux上的文本编辑器vim

3.1

3.2

3.3

3.4

3.5

3.6

3.7
网友评论