在建立好了模型后,需要倒入实际运用数据来操作。
把很大,甚至几个G的文件导入到R是一个问题。
尝试使用read.table(),snp位点太多,即使很少个体也需要很长时间,并且内存不够。所以我们删除raw文件的前六列,只保留geno文件,以matrix形式读入。
我们可以采用:
awk '{for(i=7;i<NF;i++)printf("%s ",$i);print $NF}' new-small.raw>new-small-geno.raw
wc -l new-small-geno.raw
awk '{print NF}' new-small-geno.raw #列数
sed -i "" '1d' new-small-geno.raw #mac上操作需要""
smasnp<-matrix(scan(file="new-small-geno.raw",what=integer(),sep="\t",na.strings = "NA"),12,784256)#R
那真是速度相当快
网友评论