用python按列合并多个文件

作者: 琼脂糖 | 来源:发表于2018-10-23 09:27 被阅读154次

读入一个描述各文件名路径的文件，然后按照第一列合并指定的多个文件，输出一个汇总表。这里用于多个样本的count文件合并生成一个count矩阵文件。

1.1. 准备文件

import sys,os
import pandas as pd
units = pd.read_table("units.tsv", dtype=str).set_index(["sample","unit"], drop=False)

准备文件

unit.tsv

1.2. 文件路径

input_list=[]
for i in units.itertuples():
    input_dir = "%s_%s_CountNum.txt" % (i.sample,i.unit)
    input_list.append(input_dir)
input_list

input_list

得到input_list列表，包含6个文件的路径。

1.3. 读入文件

counts = [pd.read_table(f, index_col=0, usecols=[0, 1], header=None, skiprows=0)
          for f in input_list]

读取时，index_col=0指定index为第一列。

这里用到了列表生成式，将input_list列表中的每个文件分别作为一个元素存入counts列表中。这样counts是一个list，而其中每个元素是一个dataframe。

另外为何不写成for t,sample,unit in zip(counts,units.sample,units.unit)呢？因为units.sample是method不能迭代。而units.index是可以迭代的。

1.4. 修改列名

for t, (sample, unit) in zip(counts, units.index):
    t.columns = ["%s_%s" % (sample,unit)] #counts是列表 对列表中每个元素的columns赋值

zip函数的作用是：zip(a,b)可以将a[1],b[1] ；a[2],b[2] ...对应起来。具体到这里就是将 t=counts[i] （一个dataframe），(sample,unit)=units.index[i] （一个tuple）对应起来。

aa.columns=["HBR_3"]columns需要给定一个由string元素组成的list。

这段代码的作用是给counts列表中的每一个data frame修改行名。行名为对应的sample_unit(如“HBR_1")。需保证counts和index是一一对应的。

1.5. 合并

matrix = pd.concat(counts, axis=1) 
matrix.index.name = "gene"

print(matrix)
matrix.to_csv("htseq_out.tsv", sep="\t")

pd.concat函数，将列表中的多个dataframe按index列（即第0列）横向合并。

2. Final code

import sys,os
import pandas as pd

os.chdir("XXXXX")
input_list=[]
units = pd.read_table("units.tsv", dtype=str).set_index(["sample","unit"], drop=False)

for i in units.itertuples():
    input_dir="%s_%s_CountNum.txt" % (i.sample, i.unit)
    input_list.append(input_dir)

counts = [pd.read_table(f, index_col=0, usecols=[0, 1], header=None, skiprows=0)
          for f in input_list]
          
for t, (sample, unit) in zip(counts, units.index):
    t.columns = ["%s_%s" % (sample,unit)] 

matrix = pd.concat(counts, axis=1) 
matrix.index.name = "gene"

matrix.to_csv("htseq_out.tsv", sep="\t")

3. 补充

3.1. 列表生成式

 [x * x for x in range(1, 11)]
# [1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

可以用于循环创建列表。详细可以看列表生成式。

3.2. zip 函数

zip函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表。

a = [1,2,3]
b = [4,5,6]

zipped = zip(a,b)     # 打包为元组的列表
#[(1, 4), (2, 5), (3, 6)]

网友评论

本文标题：用python按列合并多个文件

本文链接：https://www.haomeiwen.com/subject/widozftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！