读入一个描述各文件名路径的文件,然后按照第一列合并指定的多个文件,输出一个汇总表。这里用于多个样本的count文件合并生成一个count矩阵文件。
1.1. 准备文件
import sys,os
import pandas as pd
units = pd.read_table("units.tsv", dtype=str).set_index(["sample","unit"], drop=False)
准备文件
unit.tsv
1.2. 文件路径
input_list=[]
for i in units.itertuples():
input_dir = "%s_%s_CountNum.txt" % (i.sample,i.unit)
input_list.append(input_dir)
input_list
input_list
得到input_list列表,包含6个文件的路径。
1.3. 读入文件
counts = [pd.read_table(f, index_col=0, usecols=[0, 1], header=None, skiprows=0)
for f in input_list]
读取时,index_col=0
指定index为第一列。
这里用到了列表生成式,将input_list列表中的每个文件分别作为一个元素存入counts列表中。这样counts是一个list,而其中每个元素是一个dataframe。
另外为何不写成for t,sample,unit in zip(counts,units.sample,units.unit)
呢?因为units.sample
是method不能迭代。而units.index
是可以迭代的。
1.4. 修改列名
for t, (sample, unit) in zip(counts, units.index):
t.columns = ["%s_%s" % (sample,unit)] #counts是列表 对列表中每个元素的columns赋值
zip函数的作用是:zip(a,b)可以将a[1],b[1] ;a[2],b[2] ...对应起来。具体到这里就是将 t=counts[i]
(一个dataframe),(sample,unit)=units.index[i]
(一个tuple)对应起来。
aa.columns=["HBR_3"]
columns需要给定一个由string元素组成的list。
这段代码的作用是给counts列表中的每一个data frame修改行名。行名为对应的sample_unit(如“HBR_1")。需保证counts和index是一一对应的。
1.5. 合并
matrix = pd.concat(counts, axis=1)
matrix.index.name = "gene"
print(matrix)
matrix.to_csv("htseq_out.tsv", sep="\t")
pd.concat
函数,将列表中的多个dataframe按index列(即第0列)横向合并。
2. Final code
import sys,os
import pandas as pd
os.chdir("XXXXX")
input_list=[]
units = pd.read_table("units.tsv", dtype=str).set_index(["sample","unit"], drop=False)
for i in units.itertuples():
input_dir="%s_%s_CountNum.txt" % (i.sample, i.unit)
input_list.append(input_dir)
counts = [pd.read_table(f, index_col=0, usecols=[0, 1], header=None, skiprows=0)
for f in input_list]
for t, (sample, unit) in zip(counts, units.index):
t.columns = ["%s_%s" % (sample,unit)]
matrix = pd.concat(counts, axis=1)
matrix.index.name = "gene"
matrix.to_csv("htseq_out.tsv", sep="\t")
3. 补充
3.1. 列表生成式
[x * x for x in range(1, 11)]
# [1, 4, 9, 16, 25, 36, 49, 64, 81, 100]
可以用于循环创建列表。详细可以看列表生成式。
3.2. zip 函数
zip函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。
a = [1,2,3]
b = [4,5,6]
zipped = zip(a,b) # 打包为元组的列表
#[(1, 4), (2, 5), (3, 6)]
网友评论