美文网首页R语言R语言做生信R数据读取 清理
「R基础」如何读取大文件的部分内容

「R基础」如何读取大文件的部分内容

作者: xuzhougeng | 来源:发表于2019-01-26 13:00 被阅读151次
    同理心

    在小丫画图交付的一个代码项目中,需要先从XENA下载一个表达量数据:https://toil.xenahubs.net/download/tcga_RSEM_gene_tpm.gz

    样本大概是10,5,35个, 考虑到人类的基因大概有2w多个,那么这就是一个10000 X 20000的大样本数据,鉴于这还是一个TPM,数据类型是浮点型,文件解压缩之后就是4.61G, 如果全部加载到R语言中,大部分的电脑估计都受不了

    library(pryr)
    test <- data.table::fread("./tcga_RSEM_gene_tpm.gz")
    object_size(test)
    # 5.11 GB
    

    考虑到并非所有数据都是我们所需要的,是否可以只读取部分的数据呢?原作者的解决方案是通过R调用命令行的方式,提取部分数据,然后让R语言进行加载。

    system命令

    可是大部分人的操作系统都是Windows,所有运行的时候就会报错,能不能就用户R语言解决这个问题呢?当然可以,只要你认真读过read.table的那么多参数,你就会知道他的那么多参数并不是装饰用的。

    读取前几行

    让我们先学习一个简单的参数nrows, 他的作用就是读取前N行,知道它之后,那就不需要去调用head

    headtcga <- read.table("./tcga_RSEM_gene_tpm",
                           sep = "\t",
                           stringsAsFactors = FALSE,
                           nrow = 1)
    

    效果就是读取第一行,构建一个数据框,然后将其转成向量。但既然目标是向量,其实还有另一种实现方案,readLines读取的就是一个字符串,然后将其分隔成向量即可。

    headtcga <- readLines("tcga_RSEM_gene_tpm", n =1)
    headtcga <- strsplit(headtcga, split="\t")[[1]]
    

    读取指定列

    读取指定列会稍微困难一些,因为colClasses不太好理解。R语言在用read.table读取数据的时候其实做了很多事情,有一件事情就是负责确认每一列的数据类型,R语言需要根据不同数据类型进行内存分配。

    如果你想实现读取指定列,那么你就得自己去设置每一列的数据类型。如果哪些列不需要,就将其它的数据类型定义为NULL,R语言就会忽略它。

    读取代码如下:

    cat(paste0("Begin at ", Sys.time(),"\n"))
    first_5_rows <- read.table("./tcga_RSEM_gene_tpm", nrows = 5,
                               stringsAsFactors = FALSE, 
                               header = FALSE,
                               skip = 1,
                               check.names = FALSE)
    classes <- sapply(first_5_rows, class)
     # targetnum 你需要读取的列
    classes[-targetnum] <- rep("NULL", length(classes) - length(targetnum)) #将非目标列定义为NULL
    classes[1] <- "character" # 加上第一列
    # 读取文件(跳过第一行)
    targetCancerTPM <- read.table("tcga_RSEM_gene_tpm",  
                       sep= "\t", 
                       skip = 1,
                       colClasses = classes)
    colnames(targetCancerTPM) <- tcgasample[targetnum]
    targetCancerTPM[1:3, 1:3]
    cat(paste0("End at ", Sys.time(),"\n"))
    

    如果仅读取我们需要的列的话,最终只消耗了500M的内存,相对于之前的5G内存,减少了将近10倍。

    读取指定行和指定列

    这就是需要对文件进行逐行读取解析了,我用readLines造了一个轮子,函数名为read_part,目前能用的参数为

    • file: 输入的文件路径,支持.gz文件
    • rows: 读取指定行, 比如说1:100, 就是前100行。当为-1时则是读取所有行
    • rows: 读取指定列, 比如说c(1,3,4,5,6), 就是1,3,4,5,6列。当为-1时则是读取所有列
    • comment.char = "#", 会把"#"开头的行忽略掉,这个参数我还需要考虑下是否保留。
    # 函数目标:
    # 读取文件中的指定行和指定列
    # 不包括注释行
    read_part <- function(file, rows = 1, columns = -1, sep = "\t",
                          stringsAsFactors = FALSE,
                          header = FALSE,
                          check.names = FALSE, 
                          comment.char = "#", ...){
      dfl <- list()
      if (grepl("gz$", file)){
        con <- gzfile(file, open = "rb")
      } else{
        con <- file(file, open = "r")
      }
      
      i <- 0
      j <- 1
      repeat{
        
        rec <- readLines(con, 1)
        if (length(rec) == 0) break
        i <- i + 1
     
        # 当rows = -1时, 会读取所有行 
        # 超过目标行时停止读取
        if (i > max(rows) & rows != -1) break  
        # 不考虑注释行
        if (grepl(comment.char, rec )) next
        if ( ! i %in% rows & rows != -1) next
        
        items <- strsplit(rec, split = sep, fixed = TRUE)[[1]]
        if ( columns == -1){
          select_cols <- items
        } else{
          select_cols <- items[columns]
        }
        #print(select_cols)
        dfl[[j]] <- select_cols
        j <- j + 1
        
        
      }
      close(con) 
      df <- do.call(rbind, dfl)
      return(df)
    }
    
    

    相关文章

      网友评论

        本文标题:「R基础」如何读取大文件的部分内容

        本文链接:https://www.haomeiwen.com/subject/vfhijqtx.html