标题: [文本处理] [已解决]批处理如何删除多个文本里某个重复的指定字符串 [打印本页]
作者: lateol 时间: 2012-11-20 04:38 标题: [已解决]批处理如何删除多个文本里某个重复的指定字符串
本帖最后由 pcl_test 于 2016-11-10 23:03 编辑
非常感谢 apang 以下是他提供的代码,但是在处理太大的文本还是有些缓慢
40M的文件要处理1分钟.
求各位高手帮忙改改 可以另写。但要求效率要好。谢谢!- @echo off
- pushd "abc\"
- for /f "delims=" %%a in ('dir /a-d /b *.txt') do (
- (for /f "usebackq delims=" %%b in ("%%a") do (
- if not defined _%%b (echo,%%b) else echo,
- if "%%b"=="G5.1Q1" set "_G5.1Q1=1"
- ))>$
- Move $ "%%a"&set "_G5.1Q1="
- )
- popd&pause
复制代码
批量效果如下:
比如说我有以下TXT:
xxx.txt, xxx.txt, xxx.txt, xxx.txt
内容都有如下:
xxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxx
G5.1Q1
xxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxx
G5.1Q1
xxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxx
G5.1Q1
xxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
要的效果只保留第一个G5.1Q1 其他多余的G5.1Q1 都去掉。
xxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxx
G5.1Q1
xxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxx
作者: FOR 时间: 2012-11-20 08:39
大文本还是选择第三方工具吧,批处理太吃力了,代码本身已没什么可优化的了。
作者: lateol 时间: 2012-11-20 09:07
回复 2# FOR
哦 那第三方命令程序有没?或则你介绍个第三方工具给我吧谢谢。
作者: tmplinshi 时间: 2012-11-20 12:14
- @echo off
-
- for /f "delims=" %%a in ('dir /a:-d /b *.txt') do (
- gawk "{if ($0 == \"G5.1Q1\") {if (!n) print; n = 1} else {print}}" "%%a" >.tmp
- move .tmp "%%a"
- )
-
- pause
复制代码
作者: lateol 时间: 2012-11-20 21:00
回复 4# tmplinshi
gawk 不是内部命令
作者: tmplinshi 时间: 2012-11-20 21:21
回复 5# lateol
http://ossh.com/gnu-win32/gawk.exe
作者: lateol 时间: 2012-11-20 22:19
回复 6# tmplinshi
嗯 谢谢 可以用了 。不过发现个问题。
为什么我有一个3M的文件 处理后 成了71k ?
麻烦看看是什么原因。
下面是那个文本的文件 上传了百度云盘。
http://pan.baidu.com/share/link?shareid=145874&uk=774360720
作者: lateol 时间: 2012-11-20 22:33
回复 8# tmplinshi
已经下好用了。可以用。但是处理出现点异常。
作者: tmplinshi 时间: 2012-11-20 22:50
回复 tmplinshi
嗯 谢谢 可以用了 。不过发现个问题。
为什么我有一个3M的文件 处理后 成了71k ...
lateol 发表于 2012-11-20 22:19
第 4383 行的开头有一个十六进制为 0x1a 的字符,gawk 处理到这个字符就停止了。
这个字符就是你的帖子 [已解决]如何处理删除文本特殊号“” 中提到的。
作者: lateol 时间: 2012-11-20 23:24
回复 9# tmplinshi
哦 我明白了,谢谢你的提醒!问题已经解决!
在 前面添加fr语句 吧 16进制的字符都删掉。这样就不会终止了- @echo off
- pushd "==NC==\"
- fr *.txt -r:"***:\r\n\x1a\r\n" -t:"\r\n"
- for /f "delims=" %%a in ('dir /a:-d /b *.txt') do (
- gawk "{if ($0 == \"G5.1Q1\") {if (!n) print; n = 1} else {print}}" "%%a" >.tmp
- move .tmp "%%a"
- )
- pause
复制代码
作者: caspar 时间: 2012-11-27 00:23
真要批处理来做也行....- @echo off & setlocal enabledelayedexpansion
-
- set count=
- For /f "delims=" %%a in (e.txt) do ( If %%a equ G5.1Q1 (Set/a count+=1& If !count! equ 1 (Echo %%a>>e1.txt) ) Else Echo %%a>>e1.txt)
复制代码
但是效率很低下....
作者: Taurus 时间: 2012-12-8 09:51
為何不對比MD5或文件大少?
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |