批处理之家 - Powered by Discuz! Board

标题: [文本处理] 求助批处理如何分割大文本？文本很大[已解决] [打印本页]

作者: wjx515 时间: 2013-7-16 17:12 标题: 求助批处理如何分割大文本？文本很大[已解决]

本帖最后由 wjx515 于 2013-7-18 13:21 编辑

文本格式如下：
2013-06-04 xcxvc  vsdfdvxcvxcvxcv sdfd 2
2013-06-04 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-04 xcxvc  vsdfdvxcvxcvxcv sdfd 5
2013-06-04 xcxvc  vsdfdvxcvxcvxcv sdfd 6
2013-06-04 xcxvc  vsdfdvxcvxcvxcv sdfd 6
2013-06-05 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-05 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-05 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-05 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc  vsdfdvxcvxcvxcv sdfd
2013-06-06 xcxvc  vsdfdvxcvxcvxcv sdfd

如何将上面的文本分为含2013-06-04的为一个文本。命名为2013-06-04.txt
如何将上面的文本分为含2013-06-05的为一个文本。命名为2013-06-05.txt
如何将上面的文本分为含2013-06-06的为一个文本。命名为2013-06-06.txt

文本很大，最好能用gsed和gawk解决，求助了！！

作者: CrLf 时间: 2013-7-16 17:29

本帖最后由 CrLf 于 2013-7-16 18:17 编辑

个人认为 findstr 足矣：

@echo off
for %%a in (2013-06-04 2013-06-05 2013-06-06) do findstr /b "%%~a" a.txt>"%%~a.txt"
pause
复制代码

作者: wjx515 时间: 2013-7-16 17:41

本帖最后由 wjx515 于 2013-7-16 17:44 编辑

文件实在是太大2g左右的文本
gawk "/2008-06-02/{print $0}" test.txt >>2008-06-02.txt
gawk像上面这样处理都很慢，
有个想法不知道怎么实现
就是正在读的一行的日期和上一行的日期比较，如果相同就输出到同一个文件，不通就输出到一个新的文件

作者: CrLf 时间: 2013-7-16 18:37

回复 3# wjx515

如果只是简单查找，findstr 的效率不会比 awk 慢

作者: terse 时间: 2013-7-18 12:46

gawk "{print $0 >>$1\".txt\"}" test.txt
复制代码

过滤的话这样

gawk "/2013-06-0[4-6]/{print $0 >>$1\".txt\"}" test.txt
复制代码

作者: wjx515 时间: 2013-7-18 13:27

楼上的代码效率很高，多谢两位！

作者: Python 时间: 2013-7-18 15:30

grep -F "2013-06-04" test.txt > 2013-06-04.txt
复制代码

试试这个效率如何

作者: guduliebao 时间: 2013-9-7 00:01

感觉楼主的意思，是不是日期其实不仅仅只有这么三个？

欢迎光临批处理之家 (http://www.bathome.net/)