标题: [文本处理] 不固定位置的文本字符串如何用批处理替换? [打印本页]
作者: wjhgood 时间: 2009-11-11 09:21 标题: 不固定位置的文本字符串如何用批处理替换?
有两个TXT文件,A.txt和B.txt
A中内容如下:
33333333333333
22222222222222
44444444444444
55555555555555
.........
B中内容如下:
*11*11*000*11*
3*313*3*1**101
我想用B中的每一列的不为*号的数字替换A中所有行的对应列的数字,然后输入为:
B1文件:
31131130003113
21121120002112
41141140004114
51151150005115
B2文件:
33313333133101
32313232122101
34313434144101
35313535155101
这个该如何实现呢??
用SET的话我如何判断到底哪个为*呢!
作者: wjhgood 时间: 2009-11-11 11:58
哪位仁兄帮帮忙呗!!!
作者: Seter 时间: 2009-11-11 15:26
A中一行的每个数字都一样么?就是说会不会有12311111?
作者: wjhgood 时间: 2009-11-11 17:27
不一样的呢,那个我只是举例方便而已!
作者: Seter 时间: 2009-11-11 20:37
- @echo off&setlocal enabledelayedexpansion
- for /f %%i in (a.txt) do set/an+=1&set s!n!=%%i
- for /f %%i in (b.txt) do set/ai+=1&set t=%%i&(for /l %%a in (1,1,!n!) do set s=&(for /l %%j in (0,1,100) do if "!t:~%%j,1!"=="*" (set s=!s!!s%%a:~%%j,1!)else set s=!s!!t:~%%j,1!)&echo !s!)>>b!i!.txt
复制代码
突然想起来*是不能直接替换的..
作者: batman 时间: 2009-11-11 21:49
逐字符法在遇到大文本时效率会慢得让人无法忍受,本人的思路如下:
以a.txt b.txt第一行为例,设b.txt第一行字符串为str,a.txt第一行字符串为var
而str字符串可以分为n段:丢弃段 替换段 丢弃段 替换段...丢弃段
如此var字符串就可以依上也分为n段:保留段 被替换段 保留段 替换段...保留段
输出也是n段:保留段 替换段 保留段 替换段...保留段
其他行也就同样这样处理了
由于代码尽量从效率上予以考虑,所以显得复杂,中间用了一个call+lp循环,是因为字符数是不确实的,代码如下:- @echo off
- for /f "delims=" %%a in (b.txt) do (
- set "strs=%%a"&set "str=%%a"&set /a n=-1,m=0
- setlocal enabledelayedexpansion&call :lp
- for /f "delims=" %%a in (a.txt) do (
- set "var=%%a"
- for /l %%a in (1,1,!m!) do (
- for /f "tokens=1-3 delims=-" %%a in ("!_%%a!") do set "code=!%%a!"&set /p=!code:~%%b,%%c!<nul
- )
- echo.
- )
- endlocal&echo.
- )
- pause>nul&goto :eof
- :lp
- set /a n+=1
- if %n% equ 0 (
- if "%strs:~,1%" equ "*" (
- set "flag="
- ) else (
- set "flag=a"
- )
- )
- if "%strs:~,1%" equ "*" (
- if not defined flag (
- set /a m+=1
- set /a _!m!_1=n&set "flag=a"&set "k=var"
- )
- ) else (
- if defined flag (
- set /a m+=1
- set /a _!m!_1=n&set "flag="&set "k=str"
- )
- )
- set /a _%m%_2+=1&set "_%m%=%k%-!_%m%_1!-!_%m%_2!"&set "strs=%strs:~1%"
- if defined strs goto lp
复制代码
[ 本帖最后由 batman 于 2009-11-11 21:54 编辑 ]
作者: batman 时间: 2009-11-11 22:05
原帖由 Seter 于 2009-11-11 20:37 发表
@echo off&setlocal enabledelayedexpansion
for /f %%i in (a.txt) do set/an+=1&set s!n!=%%i
for /f %%i in (b.txt) do set/ai+=1&set t=%%i&(for /l %%a in (1,1,!n!) do set s=&(for /l %%j in (0,1,100) do ...
要是每行的字符数超过100怎么办?
作者: wjhgood 时间: 2009-11-12 09:02
不会超过100个的,batman版主果然牛呢!!
作者: wjhgood 时间: 2009-11-12 09:07
原帖由 Seter 于 2009-11-11 20:37 发表
@echo off&setlocal enabledelayedexpansion
for /f %%i in (a.txt) do set/an+=1&set s!n!=%%i
for /f %%i in (b.txt) do set/ai+=1&set t=%%i&(for /l %%a in (1,1,!n!) do set s=&(for /l %%j in (0,1,100) do ...
这个也实现了咧,只是有点看不明白!!
作者: terse 时间: 2009-11-12 10:39
A.txt和B.txt每行的固定字符数?
作者: wjhgood 时间: 2009-11-12 12:26
恩恩,每行就是这么多个数,14位!
作者: wjhgood 时间: 2009-11-12 12:41
我还是不是很理解batman版主的代码呢!!
作者: wjhgood 时间: 2009-11-12 13:03
Seter仁兄写的代码要行数很多的话要替换好久哦!!!
作者: batman 时间: 2009-11-12 14:46
原帖由 wjhgood 于 2009-11-12 13:03 发表
Seter仁兄写的代码要行数很多的话要替换好久哦!!!
他用的就是逐字符替换法,不适合大文本的,这个我在前面的贴子中说明了,如果你每行的字符数是固定的话,我的代码就还可以提速。
作者: Seter 时间: 2009-11-12 15:09
嘿嘿...在我的位面就只能想到这种了...BATMAN一级那是神的存在啊...写出来的代码当然效率比我高咯
BATMAN的解释我看了也不是很懂,代码更是一头雾水...能否解释下?
作者: wjhgood 时间: 2009-11-12 16:22 标题: 回复 14楼 的帖子
那在你的代码中我如何输出到TXT文本呢,就像SETER写的那样可以分个输出!
作者: netbenton 时间: 2009-11-12 19:13
我再来提提速。。。
根据!b!中的*号,决定在取字符时用变量名a或者是b,注意,变量ab保存的是表达式,并非结果
利用了for 变量在扩展时,会对值中含有!!号的字符再次进行变量扩展,这时才得到想要的结果
这样做到了整个循环一次性预处理完成,速度可想而知了
如果还不能理解,请留意最后set ab的结果。
- @echo off&setlocal enabledelayedexpansion
- for /f "tokens=*" %%a in (b.txt) do (
- set b=%%a
- set ab=
- set/a n+=1
- for /l %%a in (0,1,13) do (
- if "!b:~%%a,1!" equ "*" (
- set "ab=!ab!^!a:~%%a,1^!"
- ) else (
- set "ab=!ab!^!b:~%%a,1^!"
- )
-
- )
- (
- for /f "tokens=*" %%b in (a.txt) do (
- set a=%%b
- for %%c in ("!ab!") do echo;%%~c
- )
- )>b!n!.txt
- )
- set ab
- pause
复制代码
作者: batman 时间: 2009-11-12 19:16
&&将代码再次提效,仍适用于每行字符数不确实的情况(最大字符数可达8190),同时更适用于超大文本(行数很多)的情况。
代码思路:
1、利用折半法获得每行字符数(具体可在论坛搜索折半法),并将最大字符数减1求得截取字符时的最大偏移量(具体可在
论坛搜索截取字符)。
2、对b.txt逐行逐字进行字符截取,并在截取时进行是否是"*"字符的判断,并将"*"字符段设置为丢弃段,其他字符段设置为替换
段(注意是段),并得出总分段数和每段的字符开始时的偏移量和总长度,即:丢弃段(偏移量1,长度1) 替换段(偏移量2,长
度2) ...这样交替n个段次。
3、依次读取a.txt的每行并按b.txt的分段数据进行输出:a.txt保留段(偏移量1,长度1) b.txt替换段(偏移量2,长度2) ...同样
是交替的n个段次。
4、为提高代码效率,代码中没有使用一个call,花费了大量的处理代码来完成本要用call来完成的工作,如用for /f "tokens=1,2 deli
ms=-" %%a in ("_!m!_1-_!m!_2") do set "_!m!=!k!-!%%a!-!%%b!"这样复杂的代码来代替call,set "_!m!=!k!-%%_!m!_1%%-%%
_!m!_2"。- @echo off&setlocal enabledelayedexpansion
-
- ::::::折半法获得字符长度::::::
- set /p str=<b.txt&set /a min=0,max=8190
- for /l %%a in (1,1,14) do (
- set /a "num=(min+max)/2"
- for %%b in (!num!) do (
- if "!str:~%%b!" equ "" (
- set /a max=num
- ) else (
- set /a min=num
- )
- )
- )
- if %min% equ %max% set /a num-=1&rem字符长度减1
- ::::::折半法获得字符长度::::::
-
- ::::::替换大循环::::::
- for /f "delims=" %%a in (b.txt) do (
- set "str=%%a"&set /a n=-1,m=0,nums+=1
- cd.>b!nums!.txt
- for /l %%a in (0,1,%num%) do (
- if %%a equ 0 (
- if "!str:~,1!" equ "*" (
- set "flag="
- ) else (
- set "flag=a"
- )
- )
- if "!str:~%%a,1!" equ "*" (
- if not defined flag set /a m+=1&set /a _!m!_1=%%a&set "flag=a"&set "k=var"
- ) else (
- if defined flag set /a m+=1&set /a _!m!_1=%%a&set "flag="&set "k=str"
- )
- set /a _!m!_2+=1
- for /f "tokens=1,2 delims=-" %%a in ("_!m!_1-_!m!_2") do set "_!m!=!k!-!%%a!-!%%b!"
- )
- for /f "delims=" %%a in (a.txt) do (
- set "var=%%a"&set "output="
- for /l %%a in (1,1,!m!) do (
- for /f "tokens=1-3 delims=-" %%a in ("!_%%a!") do set "code=!%%a!"&set "output=!output!!code:~%%b,%%c!"<nul
- )
- echo !output!>>b!nums!.txt
- )
- for /l %%a in (1,1,!m!) do set "_%%a_2="
- )
- ::::::替换大循环::::::
-
- start b1.txt&start b2.txt
复制代码
作者: wjhgood 时间: 2009-11-12 23:03
batman 老大,好像你上面这个速度更慢呢???我试过了
作者: wjhgood 时间: 2009-11-13 09:21
比你上一次的那个代码替换的还要慢
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |