标题: [文本处理] [已解决] 请教批处理格式化文本并对关键字进行统计 [打印本页]
作者: ouch1983 时间: 2012-6-1 07:32 标题: [已解决] 请教批处理格式化文本并对关键字进行统计
本帖最后由 ouch1983 于 2012-6-3 15:34 编辑
输入文本样式:
1/810 CNABS
AP - CN2008800 20080418
2/810 CNABS
AP - CN2007800 20071108
3/810 DWPI
PN - US2010149 A1 20110617 DW201042
4/810 DWPI
PN - US2010284 A1 20061111 DW201077
5/810 CNABS
AP - CN2010205 20100916
......
810/810 CNABS
AP - CN2010111 20100888
要处理的文本有810条,每条有2行组成。AP是一种类型,ID以CN+数字组成,后面标红的部分是年月日。想通过批处理的方式,提取出标红的年月日这一列中的年份,并将所有同一年份的数量加起来,放在年份的后面,需要区分是PN类型的还是AP类型的,将结果输出到另一个文本或表格中。例如:日期是2007年的条目是“AP - CN2007800 20071108”,相应输出的2007行和AP列处加1。
输出样式:
PN AP
2007 0 1
......
2010 0 1
2011 1 0
......
请教论坛上的大牛们如何做,多谢多谢。
作者: yangfengoo 时间: 2012-6-1 09:16
完全无法理解楼主的意思。
20071108"这一列 ……这一列有什么特征,什么样的列属于这一列的范畴
输出样式2010这类怎么来的 PN AP 是什么值
作者: formyth 时间: 2012-6-1 09:49
本帖最后由 formyth 于 2012-6-1 09:50 编辑
其实,象这类问题,可能用正则表达式处理更加方便些,用批处理,感觉反而麻烦。不过统计数字,可能困难些
作者: ouch1983 时间: 2012-6-1 13:30
完全无法理解楼主的意思。
20071108"这一列 ……这一列有什么特征,什么样的列属于这一列的范畴
输出样式 ...
yangfengoo 发表于 2012-6-1 09:16
20071108其实就是日期,比如20081111。输出是我希望将输入按这个样式输出到另一个文本。
作者: ouch1983 时间: 2012-6-1 13:35
请教如何对这个问题用正则? 用什么语言实现?
作者: weichenxiehou 时间: 2012-6-1 15:52
回复 5# ouch1983
鄙人看得也是一头雾水啊,楼主可以上传实例文本,供大家观察规律,最好是修改顶楼信息,词不达意啊。
批处理和正则表达式并不是完全无关的东西,大家经常用的findstr就支持部分正则表达式,windows平台下的sed和gawk等也可以在批处理中调用啊。
作者: ouch1983 时间: 2012-6-1 18:58
不好意思没有说清楚,我修改了描述,请达人们指教。
作者: weichenxiehou 时间: 2012-6-1 19:52
本帖最后由 weichenxiehou 于 2012-6-1 20:00 编辑
- @echo off&setlocal enabledelayedexpansion
- set "tab= "
- for /f "delims==" %%a in ('set # 2^>nul') do set %%a=
- for /f "delims==" %%a in ('set $ 2^>nul') do set %%a=
- for /f "tokens=1,4,5" %%a in ('findstr /i "^ap ^pn" a.txt') do (
- set "stra=%%a"
- if /i "!stra:~,2!"=="ap" (set "strb=%%b"&set flag=ap) else (set
-
- "strb=%%c"&set flag=pn)
- if !flag!==ap (
- set/a "#!strb:~,4!+=1"
- if not defined "$!strb:~,4!" set "$!strb:~,4!=0"
- ) else (
- set/a $!strb:~,4!+=1
- if not defined "#!strb:~,4!" set "#!strb:~,4!=0"
- )
- )
- echo,%tab%PN%tab%AP>result.txt
- for /f "tokens=1,2 delims=#=" %%a in ('set #') do (
- echo,%%a%tab%!$%%a!%tab%%%b
- )>>result.txt
- start result.txt
复制代码
作者: weichenxiehou 时间: 2012-6-1 19:53
本帖最后由 weichenxiehou 于 2012-6-1 19:55 编辑
论坛这个问题还是在啊,点了一次“发表回复”没反应,于是再点一次,刷新后发现回了两次。。
作者: ouch1983 时间: 2012-6-1 22:30
多谢weichenxiehou。
用附件1.txt[attach]5370[/attach]作输入文本试了下代码,由于里面都是AP的条目,所以运行正常;
在附件1.txt的最后增加了几条PN的条目生成了附件2.txt[attach]5369[/attach],用作输入文本,PN的统计有问题而且导致AP条目的统计也产生了问题。
作者: apang 时间: 2012-6-1 22:49
- @echo off&setlocal enabledelayedexpansion
- for /f "tokens=1,4,5" %%a in ('findstr /ib "ap pn" a.txt') do (
- if /i "%%a"=="AP" (
- set str=%%b&set str=!str:~,4!
- set/a #!str!+=1
- if "!$%str%!"=="" set/a $!str!+=0
- ) else (
- set str=%%c&set str=!str:~,4!
- set/a $!str:~,4!+=1
- if "!#%str%!"=="" set/a #!str!+=0
- )
- )
- (echo PN AP
- for /f "tokens=1,2 delims=#=" %%a in ('set #') do (
- echo %%a !$%%a! %%b
- ))>result.txt
复制代码
作者: weichenxiehou 时间: 2012-6-1 23:15
回复 10# ouch1983
如果你能看懂代码,就会发现为什么了,因为你在末尾加的PN部分内容规律不统一,代码的意思是PN的日期应该在第5列,AP的日期应该在第四列。
作者: ouch1983 时间: 2012-6-1 23:24
恩,对,就是由于有这种不规律在里面,包括有的ID+数字前没有-,所以才觉得不知道用批处理怎么解决。刚了解了下正则表达式和Python,发现用那个可能在这个问题上会简单些吧。
作者: ouch1983 时间: 2012-6-2 08:22
回复 11# apang
谢谢apang,年份数量统计的还是不对。应该不是weichenxiehou说的日期在第4列还是第5列的问题。
作者: apang 时间: 2012-6-2 08:53
回复 14# ouch1983
代码是以行首标志AP或PN为进行判断的,你给的2.txt文本最后几行行首没有这个标志,所以统计不准。你告诉我怎么判断最后几行是AP还是PN?
作者: ouch1983 时间: 2012-6-2 09:10
回复 15# apang
哦,原来是这样。行首无标志的按照第一个有标志的为准,比如:
104/781 DWPI
PN - EP1419624 A1 20040519 DW200433
AU2002324 A1 20030310 DW200452
IN228968B B 20090320 DW201010
标红的都是PN
作者: ouch1983 时间: 2012-6-3 00:55
to: weichenxiehou
作者: weichenxiehou 时间: 2012-6-3 15:31
回复 17# ouch1983 - @echo off&setlocal enabledelayedexpansion
- set "tab= "
- for /f "delims==" %%a in ('set # 2^>nul') do set %%a=
- for /f "delims==" %%a in ('set $ 2^>nul') do set %%a=
- for /f "tokens=1-5" %%a in ('findstr /v /i "dwpi" test.txt') do (
- if /i "%%a"=="ap" (set flag=ap&set/a count=0)
- if /i "%%a"=="pn" (set flag=pn&set/a count=0)
- if "!flag!"=="ap" (
- if !count! equ 0 (set "strb=%%d") else set "strb=%%b"
- set/a "#!strb:~,4!+=1"
- if not defined "$!strb:~,4!" set "$!strb:~,4!=0"
- set/a count+=1
- )
- if "!flag!"=="pn" (
- if !count! equ 0 (set "strb=%%e") else set "strb=%%c"
- set/a "$!strb:~,4!+=1"
- if not defined "#!strb:~,4!" set "#!strb:~,4!=0"
- set/a count+=1
- )
- )
- echo,%tab%PN%tab%AP>result.txt
- for /f "tokens=1,2 delims=#=" %%a in ('set #') do (
- echo,%%a%tab%!$%%a!%tab%%%b
- )>>result.txt
- start result.txt
复制代码
作者: ouch1983 时间: 2012-6-3 15:33
十分感谢weichenxiehou老师,问题已解决,还给讲了很多
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |