美文网首页生信入门
利用linux解决的第一个实际问题

利用linux解决的第一个实际问题

作者: Wander_180e | 来源:发表于2020-09-27 16:55 被阅读0次

要做一个进化树,第一步是要将一个文件里的所有碱基序列翻译成氨基酸序列,去年做进化树时,都是手动一个个翻译的,今天我决定试一下seqkit有没有这个功能。查看seqkit --help之后,发现了translate命令。具体命令如下:“seqkit translate 碱基序列文件 > 氨基酸系列文件”。然后再用seq命令提取序列ID到一个新的文件,命令如下“seqkit seq -n -i 文件名.fasta > 新文件名.fasta”。

seqkit rmdup -s -i file.fasta > file-clean.fasta    删除file中的重复序列后,存在一个新文件file-clean中。

seqkit rmdup -s -i file.fasta -d file1.fasta -D file2.fasta   将file中的重复序列ID和重复序列存到1和2两个文件夹中

引用一个笔记https://www.jianshu.com/p/f0e65738b7c7

以及一个网页https://bioinf.shenwei.me/seqkit/usage/

以下列出seqkit的其他命令

## 序列和子序列

**seq**  转换序列(序列颠倒,序列互补,提取ID)

**subseq** 从区域/gtf/bed中获得序列,包括侧面的序列

**sliding** 滑动序列,支持环式基因组

**stats**  对FASTA/Q files进行简单统计

**faidx** 创造fasta索引文件并提取子序列

**watch** 检测并连线序列特点的柱状图

**sana** 清除质量不好的单线的fastq文件

## 格式转换

**fx2tab**  将FASTA/Q 文件转变成表格形式 (1th: name/ID, 2nd: sequence, 3rd: quality)

**tab2fx** 转变表格形式为fasta/q格式

**fq2fa** 转变fastq文件为fasta文件

**convert** 在Sanger, Solexa and Illumina中转换fastq的质量编码

**translate** 将DNA/RNA序列转变成蛋白序列(支持模棱两可的碱基)

## 搜索

**grep** 根据ID/名称/序列/序列motif 搜索序列,且允许错配

**locate** 定位子序列/motif,且允许错配

**fish** 使用本地比对在较大序列中寻找短序列

**amplicon** 经由引物检索扩增子(或它附近特定的区域)

## bam文件的处理和监视

**bam** 监视和连线bam文件记录特点的直方图

## 设置参数

**head** 打印第一个Nfasta/q的记录

**range** 在一个范围内(start:end)打印fasta/q的记录

**sample** 通过数量或比例来体验序列

**rmdup** 通过id/名称/序列 来去除复制的序列

**duplicate**  复制N次的序列

**common** 通过id/名称/序列 发现多条序列中共有的序列

**split** 通过id/seq region/size/parts (mainly for FASTA) 将序列劈开成文件

**split2** 将序列通过大小或部分 劈开成文件

## 编辑

**replace** 通过规律表达来代替名字或序列

**rename** 重新命名复制的ID

**restart** 为环状基因组重新设置起始位置

**concat** 从多个文件中经由相同的ID来连接序列

**mutate** 编辑序列(点突,插入,删除)

## 排序

**shuffle** 变换序列位置

**sort** 将序列经由id/name/sequence 进行排序

以下命令来源于seqkit -- help

Available Commands:

  amplicon        retrieve amplicon (or specific region around it) via primer(s)

  bam            monitoring and online histograms of BAM record features

  common          find common sequences of multiple files by id/name/sequence

  concat          concatenate sequences with same ID from multiple files

  convert        convert FASTQ quality encoding between Sanger, Solexa and Illumina

  duplicate      duplicate sequences N times

  faidx          create FASTA index file and extract subsequence

  fish            look for short sequences in larger sequences using local alignment

  fq2fa          convert FASTQ to FASTA

  fx2tab          convert FASTA/Q to tabular format (with length/GC content/GC skew)

  genautocomplete generate shell autocompletion script

  grep            search sequences by ID/name/sequence/sequence motifs, mismatch allowed

  head            print first N FASTA/Q records

  help            Help about any command

  locate          locate subsequences/motifs, mismatch allowed

  mutate          edit sequence (point mutation, insertion, deletion)

  range          print FASTA/Q records in a range (start:end)

  rename          rename duplicated IDs

  replace        replace name/sequence by regular expression

  restart        reset start position for circular genome

  rmdup          remove duplicated sequences by id/name/sequence

  sample          sample sequences by number or proportion

  sana            sanitize broken single line fastq files

  seq            transform sequences (revserse, complement, extract ID...)

  shuffle        shuffle sequences

  sliding        sliding sequences, circular genome supported

  sort            sort sequences by id/name/sequence/length

  split          split sequences into files by id/seq region/size/parts (mainly for FASTA)

  split2          split sequences into files by size/parts (FASTA, PE/SE FASTQ)

  stats          simple statistics of FASTA/Q files

  subseq          get subsequences by region/gtf/bed, including flanking sequences

  tab2fx          convert tabular format to FASTA/Q format

  translate      translate DNA/RNA to protein sequence (supporting ambiguous bases)

  version        print version information and check for update

  watch          monitoring and online histograms of sequence features

相关文章

  • 利用linux解决的第一个实际问题

    要做一个进化树,第一步是要将一个文件里的所有碱基序列翻译成氨基酸序列,去年做进化树时,都是手动一个个翻译的,今天我...

  • 《利用一次函数中的运算解决实际问题》怎么抉择难点

    今天讲了怎么利用一次函数中的运算解决实际问题。 环节一:利用待定系数法求一次函数表达式。 环节二:在实际问题中,根...

  • Python+人工智能之学习步骤

    夯实基础 python编程从入门到精通,从单纯的语法理解到灵活应用解决实际问题,掌握Linux和Windows双系...

  • 如何用数据解决实际问题

    如何用数据解决实际问题[柏木吉基;].azw3: 如何用数据解决实际问题[柏木吉基;].epub: 如何用数据解决...

  • 利用数据解决实际问题解读(一)

    作者 |lpl 来源 | lpl (公众号:数据分析从0到1) 前言 数据分析最终是以解决问题并提出合理的建议为基...

  • 《伍尔福克教育心理学》读书笔记

    认知也称认识过程,是指人们认识、理解事物或现象,保存信息并利用有关知识经验解决实际问题的过程。包括感觉、知...

  • 对认知发展有感

    认知也称认识过程,是指人们认识、理解事物或现象,保存信息并利用有关知识经验解决实际问题的过程。包括感觉、知觉、...

  • 学习笔记014讲: 情绪 | 第一生产力

    问题:情绪的产生、重要性、如何利用情绪 动机:掌握好情绪的武器,解决实际问题 要点:1、达克效应的后续研究:能力低...

  • 解题思路

    利用解直角三角形的知识解决实际问题的一般过程是: (1)将实际问题抽象为数学问题(画出平面图形,转化为解直角三角形...

  • 材料力学

    研究报告 结合自身专业特点,寻找自身专业中利用力学原理解决工程实际问题的例子 参考书 图片发自简书App

网友评论

    本文标题:利用linux解决的第一个实际问题

    本文链接:https://www.haomeiwen.com/subject/ondluktx.html