Board logo

标题: [文本处理] 不固定位置的文本字符串如何用批处理替换? [打印本页]

作者: wjhgood    时间: 2009-11-11 09:21     标题: 不固定位置的文本字符串如何用批处理替换?

有两个TXT文件,A.txt和B.txt
A中内容如下:
33333333333333
22222222222222
44444444444444
55555555555555
.........

B中内容如下:
*11*11*000*11*
3*313*3*1**101

我想用B中的每一列的不为*号的数字替换A中所有行的对应列的数字,然后输入为:
B1文件:
31131130003113
21121120002112
41141140004114
51151150005115

B2文件:
33313333133101
32313232122101
34313434144101
35313535155101

这个该如何实现呢??
用SET的话我如何判断到底哪个为*呢!
作者: wjhgood    时间: 2009-11-11 11:58

哪位仁兄帮帮忙呗!!!
作者: Seter    时间: 2009-11-11 15:26

A中一行的每个数字都一样么?就是说会不会有12311111?
作者: wjhgood    时间: 2009-11-11 17:27

不一样的呢,那个我只是举例方便而已!
作者: Seter    时间: 2009-11-11 20:37

  1. @echo off&setlocal enabledelayedexpansion
  2. for /f %%i in (a.txt) do set/an+=1&set s!n!=%%i
  3. for /f %%i in (b.txt) do set/ai+=1&set t=%%i&(for /l %%a in (1,1,!n!) do set s=&(for /l %%j in (0,1,100) do if "!t:~%%j,1!"=="*" (set s=!s!!s%%a:~%%j,1!)else set s=!s!!t:~%%j,1!)&echo !s!)>>b!i!.txt
复制代码
突然想起来*是不能直接替换的..
作者: batman    时间: 2009-11-11 21:49

逐字符法在遇到大文本时效率会慢得让人无法忍受,本人的思路如下:
以a.txt b.txt第一行为例,设b.txt第一行字符串为str,a.txt第一行字符串为var
而str字符串可以分为n段:丢弃段 替换段 丢弃段 替换段...丢弃段
如此var字符串就可以依上也分为n段:保留段 被替换段 保留段 替换段...保留段
输出也是n段:保留段 替换段 保留段 替换段...保留段
其他行也就同样这样处理了
由于代码尽量从效率上予以考虑,所以显得复杂,中间用了一个call+lp循环,是因为字符数是不确实的,代码如下:
  1. @echo off
  2. for /f "delims=" %%a in (b.txt) do (
  3.     set "strs=%%a"&set "str=%%a"&set /a n=-1,m=0
  4.     setlocal enabledelayedexpansion&call :lp
  5.     for /f "delims=" %%a in (a.txt) do (
  6.         set "var=%%a"
  7.         for /l %%a in (1,1,!m!) do (
  8.             for /f "tokens=1-3 delims=-" %%a in ("!_%%a!") do set "code=!%%a!"&set /p=!code:~%%b,%%c!<nul
  9.         )
  10.         echo.
  11.      )
  12.      endlocal&echo.           
  13. )
  14. pause>nul&goto :eof
  15. :lp
  16. set /a n+=1
  17. if %n% equ 0 (
  18.    if "%strs:~,1%" equ "*" (
  19.       set "flag="
  20.       ) else (
  21.       set "flag=a"
  22.    )
  23. )
  24. if "%strs:~,1%" equ "*" (
  25.    if not defined flag (
  26.       set /a m+=1
  27.       set /a _!m!_1=n&set "flag=a"&set "k=var"
  28.    )
  29.    ) else (
  30.    if defined flag (
  31.       set /a m+=1
  32.       set /a _!m!_1=n&set "flag="&set "k=str"
  33.    )
  34. )
  35. set /a _%m%_2+=1&set "_%m%=%k%-!_%m%_1!-!_%m%_2!"&set "strs=%strs:~1%"
  36. if defined strs goto lp
复制代码

[ 本帖最后由 batman 于 2009-11-11 21:54 编辑 ]
作者: batman    时间: 2009-11-11 22:05

原帖由 Seter 于 2009-11-11 20:37 发表
@echo off&setlocal enabledelayedexpansion
for /f %%i in (a.txt) do set/an+=1&set s!n!=%%i
for /f %%i in (b.txt) do set/ai+=1&set t=%%i&(for /l %%a in (1,1,!n!) do set s=&(for /l %%j in (0,1,100) do  ...

要是每行的字符数超过100怎么办?
作者: wjhgood    时间: 2009-11-12 09:02

不会超过100个的,batman版主果然牛呢!!
作者: wjhgood    时间: 2009-11-12 09:07

原帖由 Seter 于 2009-11-11 20:37 发表
@echo off&setlocal enabledelayedexpansion
for /f %%i in (a.txt) do set/an+=1&set s!n!=%%i
for /f %%i in (b.txt) do set/ai+=1&set t=%%i&(for /l %%a in (1,1,!n!) do set s=&(for /l %%j in (0,1,100) do  ...


这个也实现了咧,只是有点看不明白!!
作者: terse    时间: 2009-11-12 10:39

A.txt和B.txt每行的固定字符数?
作者: wjhgood    时间: 2009-11-12 12:26

恩恩,每行就是这么多个数,14位!
作者: wjhgood    时间: 2009-11-12 12:41

我还是不是很理解batman版主的代码呢!!
作者: wjhgood    时间: 2009-11-12 13:03

Seter仁兄写的代码要行数很多的话要替换好久哦!!!
作者: batman    时间: 2009-11-12 14:46

原帖由 wjhgood 于 2009-11-12 13:03 发表
Seter仁兄写的代码要行数很多的话要替换好久哦!!!

他用的就是逐字符替换法,不适合大文本的,这个我在前面的贴子中说明了,如果你每行的字符数是固定的话,我的代码就还可以提速。
作者: Seter    时间: 2009-11-12 15:09

嘿嘿...在我的位面就只能想到这种了...BATMAN一级那是神的存在啊...写出来的代码当然效率比我高咯
BATMAN的解释我看了也不是很懂,代码更是一头雾水...能否解释下?
作者: wjhgood    时间: 2009-11-12 16:22     标题: 回复 14楼 的帖子

那在你的代码中我如何输出到TXT文本呢,就像SETER写的那样可以分个输出!
作者: netbenton    时间: 2009-11-12 19:13

我再来提提速。。。

根据!b!中的*号,决定在取字符时用变量名a或者是b,注意,变量ab保存的是表达式,并非结果
利用了for 变量在扩展时,会对值中含有!!号的字符再次进行变量扩展,这时才得到想要的结果

这样做到了整个循环一次性预处理完成,速度可想而知了

如果还不能理解,请留意最后set ab的结果。

  1. @echo off&setlocal enabledelayedexpansion
  2. for /f "tokens=*" %%a in (b.txt) do (
  3. set b=%%a
  4. set ab=
  5. set/a n+=1
  6. for /l %%a in (0,1,13) do (
  7.   if "!b:~%%a,1!" equ "*" (
  8.    set "ab=!ab!^!a:~%%a,1^!"
  9.   ) else (
  10.    set "ab=!ab!^!b:~%%a,1^!"
  11.   )
  12.   
  13. )
  14. (
  15. for /f "tokens=*" %%b in (a.txt) do (
  16.   set a=%%b
  17.   for %%c in ("!ab!") do echo;%%~c
  18. )
  19. )>b!n!.txt
  20. )
  21. set ab
  22. pause
复制代码

作者: batman    时间: 2009-11-12 19:16

&&将代码再次提效,仍适用于每行字符数不确实的情况(最大字符数可达8190),同时更适用于超大文本(行数很多)的情况。
代码思路:
    1、利用折半法获得每行字符数(具体可在论坛搜索折半法),并将最大字符数减1求得截取字符时的最大偏移量(具体可在
论坛搜索截取字符)。
    2、对b.txt逐行逐字进行字符截取,并在截取时进行是否是"*"字符的判断,并将"*"字符段设置为丢弃段,其他字符段设置为替换
段(注意是段),并得出总分段数和每段的字符开始时的偏移量和总长度,即:丢弃段(偏移量1,长度1) 替换段(偏移量2,长
度2) ...这样交替n个段次。
    3、依次读取a.txt的每行并按b.txt的分段数据进行输出:a.txt保留段(偏移量1,长度1) b.txt替换段(偏移量2,长度2) ...同样
是交替的n个段次。
    4、为提高代码效率,代码中没有使用一个call,花费了大量的处理代码来完成本要用call来完成的工作,如用for /f "tokens=1,2 deli
ms=-" %%a in ("_!m!_1-_!m!_2") do set "_!m!=!k!-!%%a!-!%%b!"这样复杂的代码来代替call,set "_!m!=!k!-%%_!m!_1%%-%%
_!m!_2"。
  1. @echo off&setlocal enabledelayedexpansion
  2. ::::::折半法获得字符长度::::::
  3. set /p str=<b.txt&set /a min=0,max=8190
  4. for /l %%a in (1,1,14) do (
  5.     set /a "num=(min+max)/2"
  6.     for %%b in (!num!) do (
  7.         if "!str:~%%b!" equ "" (
  8.            set /a max=num
  9.            ) else (
  10.            set /a min=num
  11.         )
  12.     )
  13. )
  14. if %min% equ %max% set /a num-=1&rem字符长度减1
  15. ::::::折半法获得字符长度::::::
  16. ::::::替换大循环::::::
  17. for /f "delims=" %%a in (b.txt) do (
  18.     set "str=%%a"&set /a n=-1,m=0,nums+=1
  19.     cd.>b!nums!.txt
  20.     for /l %%a in (0,1,%num%) do (
  21.         if %%a equ 0 (
  22.            if "!str:~,1!" equ "*" (
  23.               set "flag="
  24.               ) else (
  25.               set "flag=a"
  26.            )
  27.         )
  28.         if "!str:~%%a,1!" equ "*" (
  29.            if not defined flag set /a m+=1&set /a _!m!_1=%%a&set "flag=a"&set "k=var"
  30.            ) else (
  31.            if defined flag set /a m+=1&set /a _!m!_1=%%a&set "flag="&set "k=str"
  32.         )
  33.         set /a _!m!_2+=1
  34.         for /f "tokens=1,2 delims=-" %%a in ("_!m!_1-_!m!_2") do set "_!m!=!k!-!%%a!-!%%b!"
  35.     )
  36.     for /f "delims=" %%a in (a.txt) do (
  37.         set "var=%%a"&set "output="
  38.         for /l %%a in (1,1,!m!) do (
  39.             for /f "tokens=1-3 delims=-" %%a in ("!_%%a!") do set "code=!%%a!"&set "output=!output!!code:~%%b,%%c!"<nul
  40.         )
  41.         echo !output!>>b!nums!.txt
  42.     )
  43.     for /l %%a in (1,1,!m!) do set "_%%a_2="      
  44. )
  45. ::::::替换大循环::::::
  46. start b1.txt&start b2.txt
复制代码

作者: wjhgood    时间: 2009-11-12 23:03

batman 老大,好像你上面这个速度更慢呢???我试过了
作者: wjhgood    时间: 2009-11-13 09:21

比你上一次的那个代码替换的还要慢




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2