美文网首页
2019-08-08 awk 按行数切割文件

2019-08-08 awk 按行数切割文件

作者: xiaoguolaile | 来源:发表于2019-08-08 23:02 被阅读0次

一个文件用perl计算时间太长,又不会设计多线程和并行计算,只好将原始文件切割成多个小文件一起跑,最后再把结果合并了。

这个过程中就涉及切割文件了,在此记录一下用awk根据给定行数切割文件

awk -v count=$line_number 'BEGIN{i=0} {print $0 > sprintf("%s_%d",FILENAME,i) ; if (NR>=(i+1)*count){close(sprintf("%s_%d",FILENAME,i)); i++;} }' $filename
其中,$line_number为你要按照多少行为一个文件来切割原始文件$filename;
实际使用时,将$line_number及$filename替换为你自己的数据就行
注释:
-v count=$line_number  #传递参数,按照$line_number行分割,实际使用时替换为你自己的数字
‘BEGIN{}{}’ #主体结构
BEGIN{i=0} #定义一个初始值,这里i来定义文件名,编号从第0个文件开始
 {print $0 > sprintf("%s_%d",FILENAME,i) ;#将整行输出到(>)FILENAME(文件句柄,代表最后你的执行文件名)
 if (NR>=(i+1)*count){close(sprintf("%s_%d",FILENAME,i)); #当每超过(i+1)*count行时,关闭对应的文件句柄,到这里一个包含(i+1)*count行的文件就结束了
i++;#进行下一个分割文件
$filename #被分割的文件,替换为你自己的即可
举例来说,我用200行作为一个文件来切割我的文件test.txt
awk -v count=200 'BEGIN{i=0} {print $0 > sprintf("%s_%d",FILENAME,i) ; if (NR>=(i+1)*count){close(sprintf("%s_%d",FILENAME,i)); i++;} }' test.txt
执行结果为
test.txt_0;test.txt_1...,最后一个文件为剩余行

这里涉及一个问题,就是第一个文件往往有表头(head),而后边分割的文件没有,这样的话在批量运行程序的时候可能造成困扰。
我通常是额外加一步:

head -n 1 test.txt >head.txt #将表头存在head.txt中
for i in $(ls test.txt_*);do cat head.txt $i>$i.head #遍历切割后获得的文件,将表头添加到每一个子文件的开头并存为新的文件,即test.txt_*.head中。

不完美的是:test.txt_0文件有表头,且200行(切割获得的第一个文件);
test.txt_0.head文件有两个表头,且201行(后来又加了一个表头进去)
其余test.txt_(数字)文件无表头,且200行
test.txt_(数字).head文件有表头,且201行
这样的话在后边批量运行文件的时候,第一个文件要注意一下

rm -f test.txt_0.head #删除有两个表头的文件
mv test.txt_0 test.txt_0.head #将文件重命名为最后加.head

这样所有切割后的文件都有表头且格式一样了,可以进行批量计算了;
第一个文件是200行,其余的是201行哦。
大家有好的建议可以告诉我哦。

相关文章

  • 2019-08-08 awk 按行数切割文件

    一个文件用perl计算时间太长,又不会设计多线程和并行计算,只好将原始文件切割成多个小文件一起跑,最后再把结果合并...

  • shell-split命令

    按照文件大小切割 按照行数切割 指定切割后的文件前缀

  • linux中对日志处理的tips

    1.切割文件 awk -F '\t' '{print $1}' xx.log |awk -F ':' '{prin...

  • 日志切割工具split

    1、文件切割1、指定切割文件的大小 2、指定切割文件的文字行数 参数介绍: 下面是切割脚本 下面是 定期删除脚本 ...

  • day-15正则表达式awk

    cut 切割按列切割 -d 指定分隔符 -f 指定列 三剑客 grep过滤查找内容。 sed取行,增删改查 awk...

  • Linux下的行数和列数的问题

    查看行数:wc -l 文件名查看列数:cat 文件名 | awk '{print NF}'注意:默认是\t分割但是...

  • Linux常用命令积累

    多级查看目录 查找文件存在与否 统计文件中行首为INSERT的行数 Linux awk命令详解https://ww...

  • Linux Command 1、在linux分割大文件为小文件

    命令:split 作用:按需切割文件命令格式: 使用方法介绍:选项如下:-<行数>或-l<行数> 指定每多少行就要...

  • awk、sed使用

    1 比较两个文件 NR:表示awk开始执行程序后所读取的数据行数。(ALL)FNR:awk当前读取的记录数,其变量...

  • linux下将文件按行分割的命令

    举例,待切割文件为data.log: 1)按2行切割 -l 2 2)指定切割后的文件前缀名 data_ 3)指定切...

网友评论

      本文标题:2019-08-08 awk 按行数切割文件

      本文链接:https://www.haomeiwen.com/subject/oxcqjctx.html