Board logo

标题: [文本处理] 大数据文本替换哪个工具的效率高? [打印本页]

作者: wjx515    时间: 2014-3-15 23:54     标题: 大数据文本替换哪个工具的效率高?

本帖最后由 wjx515 于 2014-3-17 15:03 编辑

求问,大数据文本替换哪个工具的效率高? 文本数据有10g左右,想把其中的aaaa替换成bbbb,sed和awk哪个命令的效率比较高?还有效率更高的命令吗?
文本缩了还有将近1G大小,就不上传了,可以生成个大文本测试下
  1. @echo off
  2. echo,TEST TEST  TEST  TEST  TEST  TEST  REPLACE>test.txt
  3. for /l %%a in (1 1 40)do type test.txt >>test.txt&for %%z in (test.txt)do title %%a:  %%~zz byte
  4. pause
复制代码
试了下sed和awk,都不太快,看来还是文件太大了。
作者: DAIC    时间: 2014-3-16 22:13

  1. sed "s/aaaa/bbbb/g" a.txt > b.txt
复制代码

作者: DAIC    时间: 2014-3-16 22:14

  1. gawk "gsub(/aaaa/,\"bbbb\")" a.txt > b.txt
复制代码

作者: PowerShell    时间: 2014-3-17 00:54

这实际上是个,软件pk的问题,我最喜欢这个了。
请把你的文本,用7-zip +lama2 压缩了,传上网盘。
搜索和替换的内容也请贴出来,我们好找软件pk呀。




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2