美文网首页
二、Linux进阶

二、Linux进阶

作者: 白米饭睡不醒 | 来源:发表于2021-02-18 18:06 被阅读0次

    1.生物信息学常见数据格式

    (1)fasta

    一种基于文本用于表示核酸序列或多肽序列的格式。其中核酸或氨基酸均以单个字母来表示,且允许在序列前添加序列名及注释

    1.1

    (2)fastq

    一种存储了生物序列以及相应的质量评价的文本格式。测序的原始序列

    1.2

    (3)gff

    基因组注释文件记录序列中转录起始位点、基因、外显子、内含子等组成元件在染色体中的位置信息;现在用得比较多的是第3版,即gff3

    1.3

    (4)gtf

    1.4

    2.文本处理

    (1)grep

    2.1.1 2.1.2 2.1.3 2.1.4 2.1.5 2.1.6

    (2)正则表达式

    2.2.1 2.2.2 2.2.3 2.2.4 2.2.5

    (3)sed

    2.3.1 2.3.2 2.3.3
    在第一行后面添加一行,保存的话在这句话后面加 >文件名 第一行和第二行的前面各添加一行 删除第一行和第三行 第二行前面和后面各添加一行 把第二到四行替换为星星 把is替换为IS,g是全部替换,不加g只替换每行的第一个 (上)替换第二个 (下)只替换第一行的 只替换一三间隔的行,即隔两行 替换有www的行 grep匹配 提取含有ee的行 -n不打印默认参数 提取含有ee的行,并将ee替换为EE 一个字母一个字母的替换,前后必须一样长
    • (不会的操作可以百度)

    (4)awk

    1)概念

    2.4.1.1 2.4.1.2
    • 例:
    原文件样子 第九个字段的原样子,cut 只将tab键分开的作为一个字段 print 凡是空字符就分开字段 和cut 效果一样 取9 10列,awk中各列独立可重复取或者不按顺序取,在列之间写"/t"即为添加tab空格 匹配UTR 在开始之前打印find UTR feature 出来 ,最后打印end出来,以UTR匹配

    2)内置变量

    2.4.2
    • 例:


    开始之前指定分隔符为tab键,所以列和列之间是空格就没被分开 加上NR,就是打印出行号

    3)条件和循环语句

    2.4.3
    • 例:


      如果第三列是gene,是的话就打印出来
    如果第三列是gene就打印出来,如果不是就打印$3加is not gene 判断是不是gene,是的话就打印出起始位置等列 for循环,paste 使一行中的放在一行

    4)数学运算

    2.4.4
    • 例:


    计算exon的长度 除法 int 取整,加0.5即为四舍五入

    3.Linux上的文本编辑器vim

    3.1 3.2 3.3 3.4 3.5 3.6 3.7

    相关文章

      网友评论

          本文标题:二、Linux进阶

          本文链接:https://www.haomeiwen.com/subject/bmaixltx.html