美文网首页
fastq 文件处理

fastq 文件处理

作者: 所以suoyi | 来源:发表于2021-03-22 15:41 被阅读0次

2021/03/22

这是一个小任务

读取某个目录下的文件

import os

aim_dir = '/home/user/fastq_dir/'

fastq_files = os.listdir(aim_dir)
print(fastq_files)

结果是一个列表,包括此目录下所有的文件的全称 及 文件扩展名(.txt,.fasta,.gz等)

for fastq_file in fastq_files:
    print(fastq_file) 

循环输出每一个文件名
若文件名格式一致,如为 sample_name.fastq.gz ,可使用 正则表达式 获取想要的信息


若目标目录 下不是文件而是文件夹,可循环上一步获取所需要文件夹内的内容

# 例如 文件范例为 /home/user/fastq_dir/sample_name/sample_name.fastq.gz
samples = os.listdir(aim_dir)
for sample in samples:
    fastq_path = f'aim_dir{sample}/{sample}.fastq.gz'

随后可以处理 fastq.gz 文件
f'{sample}'可以填入变量,是形成一段固定格式的字符串,与 '{0}'.format(sample) 相同,但更简略一点


在Linux中:查看 .gz 压缩文件

查看 .gz 压缩文件
在Linux中:
less -S *.gz | grep 'keyword' | less -S    # 查看
less -S *.gz | grep 'keyword' > *.txt      # 写入到txt文件中
gunzip -c *.gz | grep 'keyword'            # 用gunzip不解压的查看

在python中处理.gz文件

如 fastq.gz 文件

from Bio import SeqIO  # 导入biopython 
from Bio.SeqIO import parse
import gzip

根据上面得到的 .fastq.gz 的绝对路径,读成字典

fastq_dt = SeqIO.to_dict(parse(gzip.open(fastq, 'rt'), 'fastq'))  # 解压构建字典
seq = fastq_dt[id].seq  # Seq(' ') 类型序列   无法写入xlsx
seq = str(fastq_dt[id].seq)  # 普通字符串类型    可以写入xlsx

获取注释
print(fastq_dt[id].letter_annotations)
{'phred_quality': [37, 37, 37, 37, 37, 37, 37, 37]}   这是字典类型的质量值
print(fastq_dt[id].letter_annotations['phred_quality'])
[37, 37, 37, 37, 37, 37, 37, 37]   这是列表类型的质量值,方便之后过滤质量值不好的reads

可以根据关键的 id 获取序列


或者 构建一个字典 统计一下 fastq.gz 文件中 序列的 数量

from collections import defaultdict
from Bio import SeqIO
from Bio.SeqIO import parse
import gzip

seq_dict = defaultdict(int)

for record in SeqIO.parse(gzip.open(fastq_path, 'rt'), 'fastq'):
    seq = str(record.seq)
    seq_dict[seq] += 1

若是多个样本的 fastq.gz 文件

seq_dict = defaultdict(lambda: defauludict(int))

for sample in samples:
    for record in SeqIO.parse(gzip.open(fastq_path, 'rt'), 'fastq'):
        seq = str(record.seq)
        seq_dict[sample][seq] += 1

这样就可以多个样本一起统计啦

可是,这样构建的字典里面是无序的,怎样把序列按 数量 排个序呢??
对于单个样本:

seq_dict = {'aaaaaa':5, 'bbbbbb': 3, 'cccc': 6}  # 这种格式的
print(seq_dict.items())
#  dict_items([('aaaaaa', 5), ('bbbbbb', 3), ('cccc', 6)])

实际上变成了 由 一对键值对 组成的元组 组成的 列表
可以根据 每个 元组的 第二位,也就是 数量进行 排序

sort_seq = sorted(seq_dict.items(), key=lambda x: x[1], reverse=True)
print(sort_seq)
# [('cccc', 6), ('aaaaaa', 5), ('bbbbbb', 3)]

排列完还是个列表
可以输出你想要的前多少个

例如:前500个
for seq in sort_seq[:500]:
    print(seq[0], seq[1])

对于多个样本,也差不多

seq_dict = {
            'sample1': {'aaaaaa':5, 'bbbbbb': 3, 'cccc': 6}
            'sample2': {'aaaaaa':5, 'bbbbbb': 3, 'cccc': 6}
             }  # 这种格式的
for sample in seq_dict:
    sam_seq_dict = seq_dict[sample]
    sort_sam_seq = sorted(sam_seq_dict.items(), key=lambda x: x[1], reverse=True)
    for seq in sort_seq[:500]:
        print(seq[0], seq[1])

简直一毛一样有没有


相关文章

网友评论

      本文标题:fastq 文件处理

      本文链接:https://www.haomeiwen.com/subject/ppvzcltx.html