数据质控

作者: Weiyx | 来源:发表于2018-10-11 22:51 被阅读0次

单细胞分析之质控（四）
2021-05-23 批量下载sra文件及转换为fastq
宏基因组分析概述
数据质控
数据质控
三、数据质控
单细胞转录组数据分析课件||2. Quality control
nanopore测序数据质控
【转录组03】报错分析&数据质控和过滤
RNA-seq 数据处理

1 安装 fastQC

sudo apt install fastqc

2 操作： fastqc -o /mnt/g/fastQC/ /mnt/h/weiyunxiao/AA/raw\ data/AA_1_1.fq

-o 输出地方

后边是raw data 输入

3 得到两个文件

fsatqc 报告如何看？参考孟浩巍知乎 https://zhuanlan.zhihu.com/p/20731723

测序原理：参考 http://v.youku.com/v_show/id_XNzEzNzk1NTA0.html

https://mp.weixin.qq.com/s/mYKlmyxeHeacwOoaK5IJug

https://mp.weixin.qq.com/s__biz=MzA4NzE0MTYwOQ==&mid=200945861&idx=1&sn=3cde53025de45d91c58b5bbc7c6b347f#rd

明天好好学习，天天向上

现在，我要回去睡觉了

质控：

1 质量筛选所有位置的10%分位数大于20 （完成）

2 删掉前边质量不好的片段，取 18-150bp 的位置（重复的短序列）

还是没太搞清楚，因为去除了18bp, 还是有问题出现

额额额，又切除了10bp,还是一样的问题，不知道为啥，所以现在总结，只要切除一开始测序的8bp就可以了。

不知道标签序列在 150bp 里吗

但可以确认一件事：公司给我的数据清洗，只是过滤了质量低的数据，对于标签序列及一开始8bp左右数据，测序不稳定，所以应该删掉，公司没有处理。总长度还在150bp.

结论：还是自己得搞懂。可能做表达量没有太大的影响，但是，还是应该去除啊。

这一步先过，明天进行下一步，比对，snp, indel, snv, 的分析。

先用一个样品的数据，走个流程。

心里有数，在做多的。

调控元件，怎么分析，得看懂。

转录组，其他数据，看看还可以用吗。

先这样，小RNA，数据，下周再说。

/home/weiyx/miniconda3/bin/fastq_quality_filter -v -q 20 -p 10 -Q 33 -i /mnt/h/weiyunxiao/AA/raw\ data/AA_1_1.fq -o /mnt/g/fastQC/AA_1_1_clean.fq

/home/weiyx/miniconda3/bin/fastx_trimmer -f 18 -l 150 -Q 33 -i /mnt/g/fastQC/AA_1_1_clean.fq -o /mnt/g/fastQC/fastQC2/AA_1_1_clean2.fq