2018-09-03

作者: 马连洼小法师 | 来源:发表于2020-03-17 03:13 被阅读0次

SRA Explorer

流程：全部选中--add to collection--saved datasets--Aspera commands for downloading FastQ files

第二天数据过滤
安装conda
流程：下载minconda--配置仓库（condarc）--安装软件
htop F5显示进程
下载fastp
替换”rename 's///' *.gz“
打印文件名ls *.gz >test
打印文件中第一列 awk '{print $1}' +file 生成样品表sample 批量化命令awk '{print “fastp -i ”$ 1 -o “clean/" $1 "-h"$ 1".html -j"$1".json &" }' +file >run_fastp.sh

第三天参考基因组下载
Ensemble下载基因组序列，注释文件，蛋白序列
基因组序列：下载primary_assembly
toplevel里面包含搞不明白的DNA序列，不考虑
下载的数据，解压 cat *.fa>genome.fa

注释文件：chr.gtf全部定位到基因组了
abinitio从头注释，软件预测，不靠谱
将gff转变为gtf代码：gffread -T -o file.gtf file.gff3
蛋白文件：awk '{print $1}' file 打印第一列分隔符改为-： awk -F '-' '{print$ 1}' file
第三列中基因的个数 awk '$3=="gene"' file |wc -l

第四天

软件包FastX-toolkit用于裁断基因每行的个数，80个，长度转化
conda install fastx-toolkit
一行70个字符：fasta_formatter -i genome.fa -o genome_formater.fa -w 70

分析思路：
比对到基因组： Hisat2，STAR
比对到转录组; Bowties

饱和性曲线Saturation curve
6G：碱基数目对于大多数动植物样本，推荐20M reads X （150+150）=6000M

表达定量Quantification
subread --featureCounts进行定量
链特异性文库可以区分正义量

标准化Normalization
TPM

比对
第一步（构建参考基因组）：参考基因组处理，构建index，排序。用于比对顺利
输入：基因组序列输出：构建好参考基因组软件：hisat2
代码：`hisat2-build ../ref/genome.fasta ../ref/genome 1>hisat2-build.log 2>&1
第二步（比对）：
输入：构建好的基因组，测序数据输出：比对结果（sam）软件：hisat2
代码

hisat2 --new-summary -p 10 -x ../ref/genome -U ../data/BLO_S1_LD1.fq.gz -S BLO_S1_LD1.sam --rna-strandness R 1>BLO_S1_LD1.log 2>&1
第三步（压缩和排序）：
输入：sam 输出：bam 软件：samtools sort
代码
samtools sort -o BLO_S1_LD1.bam BLO_S1_LD1.sam
第四步：bam文件索引
输入：bam 输出bam.bai 软件：
代码:samtools index BLO_S2_LD3.bam

IGV：基因组文件基因注释文件 bam文件 sample.bam.bai
第一步：构建基因组：输入基因组文件，基因组解释文件。

基因组构建

第二步：将bam文件，bam.bai文件放于一个文件夹
在IGV中选择File--loadfile--选择bam文件即可，无需选择bam.bai文件

第五天定量

multiqc生成比对报告
samtools flagstat file.bam 查看比对情况
log文件更推荐查看比对

IGV查看比对情况：
HIsat2--stingtie：通过转录组拼接对于原来的基因结构优化（不推荐）
PASA对原来的基因结构进行优化

个体重测序本质是基因分型
群体重测序本质是等位基因频率

表达定量：
输入得到的bam文件，基因注释文件，输出：定量结果文件，软件：Rsubread（featurecounts）R语言
安装：(1)R包来源于于CRAN
install.packages("")
(2)R包来源于Bioconductor，查看安装文档

Rscript file.R
代码：Rscript script/run-featurecounts.R -b ../1.Mapping/BLO_S1_LD1.bam -g ../ref/genes.gtf -o BLO_S1_LD1

-b:bam文件 -g:gtd文件 -o：输出文件前缀

批量脚本：awk '{print "Rscript script/run-featurecounts.R -b ../1.Mapping/" $2".bam -g ../ref/genes.gtf -o "$2}' ../data/samples.txt

生成count

第六天表达定量生成矩阵

网友评论

本文标题：2018-09-03

本文链接：https://www.haomeiwen.com/subject/rvwiwftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2018-09-03

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读