1128 转录组分析 B站up主天马行空的坦克兵 (讲解清晰易懂)
09 删除conda下的某一款软件 删除名为rnaseq1环境下的比对软件STAR:remove -n rnaseq STAR Ctrl+C停止运行程序 (删前删后注意查看,查看有两种,去所属环境删除与直接指定环境用命令删除)
删除名为rnaseq1环境下所有软件: remove -n rnaseq --all
10 安装mamba - conda的左右手
conda网站上搜索mamba,第一条(下载量最多)匹配出来的mamba,点进去,根据命令安装。
mamba是所有环境都可能会用到的软件,并且对整体环境无干扰,所以安装在base环境。
由于mamba基于conda而产生的,所以使用时必须是在conda激活的环境下。
mamba安装其他软件报错命令:不能打开下载文件,没有这个文件夹或者路径Couldn’t open fiel for download ...(可能是版本不匹配,直接粘贴Github反馈网址,进入看看Mamba软件更新情况,小姐姐安装了0.9.1版本(降了版本型号,结果还是不行))
11mamba安装软件报错&conda 安装软件却不报错(中)
为什么我的which STAR,不显示STAR软件的所在路径呢?但我的STAR --help能够找到.(注意软件名大小写的区别,在安装时,大小写仿佛没有区别。但是在搜索查询时,大小写要注意区分。)
安装时可以用bioconda.org官网查询匹配。
11mamba安装软件报错&conda 安装软件却不报错(下)
作者尝试,退出rnaseq环境,进入base环境,新建一个环境,将mamba安装在新环境下。激活新环境(换环境尝试,报错依旧)
删除环境时,必须注意要退出该环境,再进行删。
mamba安装再base环境下,先退出base,再remove -n base mamba(删除名为base环境的mamba软件)
再次尝试(无效):解压mamba文件 tar zxvf mamba.gz ./ (无效),拷贝cp app ~/miniconda3 -r; 移动当前文件夹所有文件到上一级文件夹下 mv ./* ../ -r (有空的文件夹,不能拷贝)
11 mamba安装软件成功案例(最终)---结果作者还是报错了 ,报错命令conda has prepared the above report
12conda或者mamba安装软件经典报错 HTP000 CONECTION FAILED,HTTP error(经典网络不行的报错)
13conda安装软件报错 An unexpected error has occured, conda has prepared the above report. 可能安装的软件与python版本不匹配,最好改变安装软件的版本,因为python包(Python包是基础配置包)一变,可能会导致其他版本不能用。中等新建新环境,安装匹配的python版本(麻烦,得反复调用),最次直接在原环境直接更改python版本。
查看版本conda list或 软件名 -V。
[if !supportLists]14. [endif]conda 安装的两个软件是“欢喜冤家”不能共存,其实就是版本没找对(更新或者降低版本)(版本号要相互对应,要先安装一个包,再按另一个包,才能使用)
那怎么找是否兼容(依存)呢,怎么安装呢
怎么找对版本:去官网查看有无depend(依存)关系;此外可以运用mamba repoquery denpends 包名 命令去查询依赖关系(谁依赖mamba) mamba repoquery whoneeds python(谁需要某某软件)
怎么安装:---技能三:利用conda安装最新版本mira和mitbom (参考博主此个视频,能够解决不兼容问题。)
15借助conda软件安装报错,出现GLIBCXX_3.4.22 not found问题(安装上了,为啥查找不到)---软件库新建链接就行(见up主,fastp软件系列2与3,解决这个问题)
(命名安装不了,弹不出帮助文档)-----(可能是软件名大小写问题),想要弄清大小写,去万能的官网搜 anaconda.org/search(但是注意官网与服务器大小写不统一,如star,官网小写,但是在服务器是大写的;此外注意服务器中每个字母,每个空格都有特定的意义,不能大意)
小思考:(可以考虑做一款推荐版的视频,每个软件应该安装什么版本,安装的顺序----这种效果应该会非常不错--自己会了之后做这个---up主在第16节就进行了推荐,安装的话可以借鉴他们实验室的流程)
16转录组分析—总结自己Linux上常用的转录组版本软件
安装的时候,名称用trim-galore,查询的时候,软件名称是用trim_galore
可以强烈借鉴作者的各种软件版本。那样不会存在版本问题。
17批量下载ebi中的fastaq/SRA数据
准备数据:GSE155902(自身必须根据作者的路程演示一遍***,跟着up主做一遍,可以思考不断的做PPT进行输出)
(选择原因:该组数据分组明确,样本量较少,便与演示,文章中清晰展示过程,并给出了原始数据----可以自己演示进行比较)
挂在后台下载NCBI中的数据
nohupwget -c 链接 &()368302是其名称
下载位置:批量下载的话可能下载在家目录下的NCBI处
Kill 368302(结束进程)
取消下载则先删除文件rm SRR12415656 ,接着取消后台下载rm nohup.out
Sra的格式需要用个软件转换成FASTAQ格式,不如利用EBI网站搜索转换,直接下载FASTAQ格式
批量下载(基于文件命名有顺序,所以利用for循环指定范围进行批量下载)】
for循环展示:for i in {1..100} (展示1-100,并用空格隔开)
> do echo -ne “$i ”(-ne数字与数字之间以空格隔开)
> done
批量下载命令:
如for i in 52 53 54 55 56 57 58 59 60 61 62 63 ; do
>{
> nohup wget -c ftp: //ftp.sra.ebi.ac.uk/voll/fastq/SRR124/0${i}/SRR124156${I}/SRR124156${i}_1.fa stq.gz &
>}
>done
Ctrl+P键可以显示之前输入的命令,Ctrl+N键可以显示下一个常用命令; tail -f nohup .out(可以查看下载进度)
18 解读转录组测序下机数据&fastaq文件,到手的下机数据、利用linux查看fasta文件
一查看什么(测序信息)
查看每个下载数据内部内容,每一行代表什么
zless SRR12415652_1. fasta.gz |head -n 8(只查看该数据集的前8行,up主打算精心讲解其组成)
ATCG表示通过红黄蓝绿荧光进行修饰的,N代表没有读出荧光颜色,不知道碱基组成。
zless SRR12415652_1. fasta.g 不用管道部分(想看多少看多少)
数据集的内容组成由4行4行的循环格式组成,每一个4行代表
4行中第一行代表的是测序信息(啥样本(样本名称)啥仪器啥泳道啥流动池啥line啥tiel,啥X/Y,最末尾的1代表第一个reads)
行中第二行代表的是碱基顺序(如果含N太多的话,需要质控修建掉吧)
第三行代表的是+号(一般没有内容,有内容也基本与第一行一样,但是+号必须保留)
第四行代表(第二行每一个碱基的质量值,代表相对应碱基的ASC‖码)ASC‖码有phred33与phred64码,目前主要是用phred33,反映碱基质量。
19 解读转录组测序下机数据&fastaq文件(同18)
20转录组分析——怎么才能知道下载的fastq文件是否完整--md5sum(校验码)文件轻松搞定
用md5sum *gz >md5.txt(将当前位置所有md5sum *gz文件写入md5.txt文件,目录下会多一个md5.txt文件,可以用md5查看文件完整性)---- cat md5.txt(可以比对公司的或者网站数据库提供的,确认数据是否被改动或者有缺失) md5sum -c md5.txt(可以用于反馈下载数据是否完整)
21转录组分析 ---对GSE155902批量fastQC质控
检查完数据完整性之后,进行质控,质控利用fastQC软件,一般都是批量进行质控
查看当前文件夹下有多少格文件ls |wc -l
[if !supportLists]一、[endif]先展示单个进行质控
激活安装软件的小环境conda activate fastQC
接着开始质控fastqc -t 2 SRR12415652_1.fastq.gz(-t 2代表的是两个线程,跑的可能稍微慢些)
ls质控之后,会生成一个SRR12415652_1.fastq.html(网页),可以下载该网页进行查看,每次质控,都会生成一个zip
二、批量质控
用通配符ls *gz |xargs fastqc -t 5
避免一个一个点开相应的html进行查看(上百个不得点死,所以multiqc来了),可以将各自的html打包成一个html总文件进行查看
用multiqc ./(直接汇总生成multiqc的html)
可以下载到桌面进行查看,也可以用软件进行查看。
22转录组分析---对GSE155902批量trim_galore质量控制
创建一个名为rawdata_qc的文件mkdir rawdata_qc
将所有html、zip文件都放在该文件夹下mv *html ./rawdata_qc
mv *zip ./rawdata_qc/
mv multiqc_data/ ./rawdata_qc/
创建一个文件rawdata
把所有gz结尾文件放入该文件夹下 mv *gz ./rawdata
ls
cd rawdata
用原始数据进行质控(所有相应操作必须要有相应软件---trim_galore安装之前,必须先安装cutadapt)
批量进行处理(原始数据质控处理)
用ls *_1.*gz>1 (把1结尾的文件写成1结尾的文本文件)
用ls *_2.*gz>1 (把2结尾的文件写成2结尾的文本文件)
paste 1 2 > config (把1与2并排排列,整理在一个文件夹下)
Mkdir cleandata cleandata_qc(建立cleandata文件与其质控文件)
用dir=”./cleandata”(指定输出路径)
用cat config |while read id (读取列表)
do
arr=${id}
fq1=${arr[0]}
fq2=${arr[1]}
nohup trim_galore -q 25 --phred33、64
23 转录组分析录屏 ---对trim_galore质控后的fastq文件fastqc一下,看一下质控效果
进入质控完的结果的目录下
cd cleandata后将cleandata_qc放在cleandata下(原始文件gz结尾,质控文件fq.gz结尾)
测序长度,由于后续重复较高,设置为20-100,20太低了,所以up主将其调为
质控效果不好,所以作者打算重新进行质控
找几篇文章看看转录组测序数据质控结果怎么阅读?明白fastqc与multiqc处理之后,结果的阅读方式。
24 转录组分析——trim_galore软件的使用方法(讲解质控文件trim_galore的帮助文档)
[if !supportLists]1- [endif]conda avcivate rnaseq
[if !supportLists]2- [endif]trim_galore(想用必须安装cutadapt)
[if !supportLists]3- [endif]trim_galore利用trim_galore --help查看该软件的使用说明,-q(保证每一个碱基的之质量,默认是20,up主一般用25); -phred33 (sanger测序1.9的话就是ASC‖+33,其余则是64(普遍是33型); --fastqc (运行FastQC,产生FastQC文件); 实在不行可以运用百度搜索例子。--stringency(接头序列重复不能超过一个.?不大理解该含义) -e(错误率设置为0.1) --length(长度默认20,太短的话比对序列会显著增加) --max n (最多允许几个n出现) --trim-n(去除n碱基)
[if !supportLists]4- [endif]trim_galore -l 25 -stringency 3 -q 25 --phread 33(碱基长度设置为25,接头重复不能超过3否则会被删除,碱基质量值要大于25, ASC‖碱基质量评估类型) 需要什么参数,按照help文档进行添加即可。
哎,作者又断了,算了,把作者相应的技能视频也先学了把。
网友评论