美文网首页
用python按列合并多个文件

用python按列合并多个文件

作者: 琼脂糖 | 来源:发表于2018-10-23 09:27 被阅读154次

    读入一个描述各文件名路径的文件,然后按照第一列合并指定的多个文件,输出一个汇总表。这里用于多个样本的count文件合并生成一个count矩阵文件。

    1.1. 准备文件

    import sys,os
    import pandas as pd
    units = pd.read_table("units.tsv", dtype=str).set_index(["sample","unit"], drop=False)
    
    准备文件 unit.tsv

    1.2. 文件路径

    input_list=[]
    for i in units.itertuples():
        input_dir = "%s_%s_CountNum.txt" % (i.sample,i.unit)
        input_list.append(input_dir)
    input_list
    
    input_list

    得到input_list列表,包含6个文件的路径。

    1.3. 读入文件

    counts = [pd.read_table(f, index_col=0, usecols=[0, 1], header=None, skiprows=0)
              for f in input_list]
    

    读取时,index_col=0指定index为第一列。

    这里用到了列表生成式,将input_list列表中的每个文件分别作为一个元素存入counts列表中。这样counts是一个list,而其中每个元素是一个dataframe。

    另外为何不写成for t,sample,unit in zip(counts,units.sample,units.unit)呢?因为units.sample是method不能迭代。而units.index是可以迭代的。

    1.4. 修改列名

    for t, (sample, unit) in zip(counts, units.index):
        t.columns = ["%s_%s" % (sample,unit)] #counts是列表 对列表中每个元素的columns赋值 
    

    zip函数的作用是:zip(a,b)可以将a[1],b[1] ;a[2],b[2] ...对应起来。具体到这里就是将 t=counts[i] (一个dataframe),(sample,unit)=units.index[i] (一个tuple)对应起来。

    aa.columns=["HBR_3"]columns需要给定一个由string元素组成的list。

    这段代码的作用是给counts列表中的每一个data frame修改行名。行名为对应的sample_unit(如“HBR_1")。需保证counts和index是一一对应的。

    1.5. 合并

    matrix = pd.concat(counts, axis=1) 
    matrix.index.name = "gene"
    
    print(matrix)
    matrix.to_csv("htseq_out.tsv", sep="\t")
    
    

    pd.concat函数,将列表中的多个dataframe按index列(即第0列)横向合并。

    2. Final code

    import sys,os
    import pandas as pd
    
    os.chdir("XXXXX")
    input_list=[]
    units = pd.read_table("units.tsv", dtype=str).set_index(["sample","unit"], drop=False)
    
    for i in units.itertuples():
        input_dir="%s_%s_CountNum.txt" % (i.sample, i.unit)
        input_list.append(input_dir)
    
    counts = [pd.read_table(f, index_col=0, usecols=[0, 1], header=None, skiprows=0)
              for f in input_list]
              
    for t, (sample, unit) in zip(counts, units.index):
        t.columns = ["%s_%s" % (sample,unit)] 
    
    matrix = pd.concat(counts, axis=1) 
    matrix.index.name = "gene"
    
    matrix.to_csv("htseq_out.tsv", sep="\t")
    

    3. 补充

    3.1. 列表生成式

     [x * x for x in range(1, 11)]
    # [1, 4, 9, 16, 25, 36, 49, 64, 81, 100]
    

    可以用于循环创建列表。详细可以看列表生成式

    3.2. zip 函数

    zip函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。

    a = [1,2,3]
    b = [4,5,6]
    
    zipped = zip(a,b)     # 打包为元组的列表
    #[(1, 4), (2, 5), (3, 6)]
    

    相关文章

      网友评论

          本文标题:用python按列合并多个文件

          本文链接:https://www.haomeiwen.com/subject/widozftx.html