返回列表 发帖
本帖最后由 terse 于 2013-6-13 01:19 编辑

if "!num!" neq "1000000000" echo !num:~1!  !str!
原来这里是考虑尾部为1次的情况
思考一下 应该是错的判断
谢xxpinqz提醒 已修正

TOP

3楼的代码,看起来只考虑到头部出现1次的情况,却未考虑尾部为1次的情况(最后一个没重复却被set num=0了),难道你测试正确?
这么大的文件还是用第三方比较好。纯P该就是6楼的了
初学BAT,非专业。代码不适当之处还望前辈们多多指点。在此表示感谢!

TOP

本帖最后由 rack 于 2013-6-12 22:29 编辑

回复 8# CrLf


    谢谢
这种大文件上了G以上或者100MB以上的办公软件没法打开的。
但这个公式与方法办公方面也是很不错的,这个我也不会
可以指点一下虽然现在用不着,说不定哪天用上了。

TOP

本帖最后由 rack 于 2013-6-12 22:27 编辑

回复 6# terse


    谢谢
比我开始找的那个快了很多
而且比我想的还好
把序数放到了前面。
但不知道是什么原因,比那个命令处理出来的要稍大点
下面是前几行:
1904  123456789
213  1234567890
141  987654321
119  147258369
111  12345678910
104  1233211234567
90  123456789.
89  0123456789
88  123123123
82  abc123456
78  7708801314520
73  1111111111111111
69  a123456789
66  5201314520


后面几行:
这里需有几个空行但也不至于大几十KB
1  ---+++wo520.
1  ';lkjhgfdsa
1  ''520123
1  
1  
1  
1  
1  
1  
1  
1  
1  
1

TOP

回复 2# CrLf


    谢谢楼上两位指点
但是还不行
下面是前几行的:
''520123    1
';lkjhgfdsa    1
---+++wo520.    1
---1111111111    1
---qq898588    1
---zhangning110    1
--..worininiang    1
--++xzf494    1
--123libukaini    1

TOP

其实用 excel 貌似也可以搞定,一溜公式加排序

TOP

回复 5# rack


    2 楼代码保存为 bat,把下载的 gawk.exe 和 sed.exe 及其所需 dll 放在 system32 目录下,运行 bat 即可

TOP

本帖最后由 terse 于 2013-6-13 01:15 编辑

这样呢
修正最后行判断问题
简单的测试 通过
不知是否还有特殊情况
另排除空行的
不知道楼主是否需处理空行
@echo off&setlocal enabledelayedexpansion
sort a.txt | findstr . >temp.tx
set /pstr=<temp.tx
set num=1000000001
(for /f "skip=1 delims=" %%i in (temp.tx) do (     
    if "!str!" neq "%%i" (
       echo;!num:~1!  !str!
       set num=1000000001
    ) else set /a num+=1
      set str=%%i
)
       echo;!num:~1!  !str!
)>sort.txt
sort /r sort.txt >temp.tx
(for /f "tokens=* delims=0" %%i in (temp.tx) do echo;%%i)>sort.txt
del temp.tx
pauseCOPY

TOP

回复 4# terse


    gawk 和 sed 命令不知道怎么用哦
都不知道用什么软件的

所以只能用BAT,或者CMD的批处理工具

TOP

要效率高 用2楼的3方啊
纯p处理大文件力不从心啊

TOP

本帖最后由 pcl_test 于 2016-7-16 20:45 编辑

回复 2# CrLf

找了一个这个,可是效率太慢了,只能处理几MB的数据大小。没法用。
这个内容也太长了,只要能达到面的效果就行。有谁能精简一下?
    @echo off
:: 目的:
::     SearchNet.TXT中每行只有一个数,统计每个数的重复次数,并按照重复次数由高到低排序
:: 思路:
::     先用sort把所有的数排序,然后统计重复次数,以 数+重复次数 的格式写入临时文件tmp2.txt;
::     提取重复次数的数字,以该数字为长度建立以该数字命名的文件,用dir来把文件名(即重复次数)排序,写入tmp3.txt;
::     按行提取tmp3.txt中的内容,然后在tmp2.txt中查找与tmp3.txt中匹配的记录,写入结果;
::     此方案会产生大量的临时文件,但是效率比较高
set num=-1
sort<SearchNet.TXT>tmp1.txt
cd.>tmp2.txt
cd.>tmp3.txt
cd.>result.txt
:: 统计重复次数
setlocal enabledelayedexpansion
for /f %%i in (tmp1.txt) do (
    set /a num+=1
    set second=!first!
    set first=%%i
    if not "!second!"=="" if !second! neq !first! (>>tmp2.txt echo !second!  !num!&set num=0)
)
>>tmp2.txt echo %first%  %num%
:: 对重复次数排序
md tmp && pushd tmp
for /f "tokens=2" %%i in (..\tmp2.txt) do (
    cd.>%%i
    for /l %%j in (1,1,%%i) do echo.>>%%i
)
>..\tmp3.txt dir /o-s /b
:: 按重复次数提取记录
for /f %%i in (..\tmp3.txt) do (
    >>..\result.txt findstr " %%i$" ..\tmp2.txt
)
popd && rd /q /s tmp
del tmp1.txt tmp2.txt tmp3.txt
start result.txt
goto :eofCOPY
关于统计字符出现个数的其他方案(都不生成临时文件)
@echo off
:: 统计每个字符出现的次数,并求出出现次数最多的字符
:: 思路:
::     通过提取每个位上的字符,赋予统一以 字符: 开头的某些动态变量,
::     如果变量名相同,则自加一次,然后,通过 set 字符:命令一次性提取
::     所有以 字符: 开头的动态变量,交给 for 语句来处理。set 用得很巧妙
::     无须生成临时文件,并按照字母升序排列
::
setlocal ENABLEDELAYEDEXPANSION
set str=adadfdfseffserfefsefseetsdmg
set /a m=0,n=0,l=0
call :loop
:: 以下是求出现次数最多的字符
for /f "tokens=1,2 delims==" %%i in ('set 字符:') do (
        echo %%i=%%j
        if %%j GTR !l! set l=%%j& set m=%%i
)
echo.出现次数最多的%m%=%l%
pause
goto :EOF
:loop
call set m=%%str:~%n%,1%%
if not defined m goto :EOF
set /a "字符:%m%+=1"
set /a n+=1
goto loopCOPY
@echo off
:: 统计字符出现次数
:: 思路:
::    先把字符串拆解为以空格分隔的单字符组成的字符串,
::      然后用for语句来探测每个字符在串中出现的次数
::      此方法无须生成临时文件,并按照在字符串中出现的
::      先后顺序显示
setlocal EnableDelayedExpansion
set str=adadfdfseffserfefsefseetsdg
rem 拆解字符串
:analyze
set str_tmp=%str_tmp% %str:~0,1%
set str=%str:~1%
if not "%str%" == "" goto analyze
rem
for %%i in (%str_tmp%) do call :exclude %%i
pause
exit
:exclude
for %%i in (%counted%) do if "%1"=="%%i" goto :eof
set counted=%counted% %1
call :count %1
goto :eof
:count
for %%i in (%str_tmp%) do if "%1"=="%%i" set /a %1+=1
echo %1 !%1!
goto :eofCOPY
@echo off
:: 统计字符出现的次数
:: 思路:
::     拆解字符串,以空格分隔组成新字符串
::     通过 shiftcall 不同的参数,并用
::     set 来命名变量,变量名具有统一的开头
::     最后通过 set 来显示这些变量
::
setlocal EnableDelayedExpansion
set str=adadfdfseffserfefsefseetsdg
:loop
set str_tmp=%str_tmp% %str:~0,1% && set str=%str:~1%
if not "%str%" == "" goto loop
call :start %str_tmp%
set .
echo 出现次数最多的:%max%=%maxN%
pause
exit
:start
if [%1]==[] ( goto :eof ) else ( set /a  .%1+=1 )
if !.%1! GTR !maxN! set maxN=!.%1!&& set max=.%1
shift
goto :startCOPY
@echo off
:: 综合以上方案,最简洁的代码如下
setlocal EnableDelayedExpansion
set str=adadfdfseffserfefsefseetsdgadadfdfseffserfefsefseetsdga
:loop
set str$=%str$% %str:~0,1%&set str=%str:~1%
if not "%str%" == "" goto loop
for %%n in (%str$%) do (
  set /a .%%n+=1
if !.%%n! GTR !maxN! set maxN=!.%%n!&&set max=%%n)
set .
echo 出现次数最多的:%max%=%maxN%
pause
exitCOPY
@echo off&setlocal
:: sort之后,通过比较这一次取到的内容和上一次的内容是否相等来统计重复次数
:: 如何同时保存本次和上次的内容需要很大的技巧
:: 注意要把次数的初值设置为1for语句的后括号之后不能紧跟跳出语句
:: code by bagpipe  2006-12-16 remarked by JM
set /a n=1
for /f %%a in ('type 1.txt^|sort') do (
call :pp %%a
)
:pp
if not defined bb goto b
if "%bb%"=="%1" (set /a n+=1) else (>>ko.txt echo %bb%  %n%次&set /a n=1)
:b
set bb=%1
goto :eofCOPY
@echo off&setlocal enabledelayedexpansion
:: 带排序功能的代码
:: 用 for /l 来控制每次 findstr 的字符长度,
:: 然后把同一长度的用 sort 来排序,从而突破了
:: sort 只能按字符位大小来排序这一限制
set a=[0-9]
for /l %%a in (1,1,3) do (
call :pp !a!
set a=!a![0-9]
)
goto c
:pp
for /f %%x in ('findstr "^%1$" aa.txt^|sort') do @echo %%x >>dd.txt
goto :eof
:c
set /a n=1
for /f %%a in ('type dd.txt') do (
call :pp %%a
)
:pp
if not defined bb goto b
if "%bb%"=="%1" (set /a n+=1) else (>>ko.txt echo %bb%  %n%次&set /a n=1)
:b
set bb=%1
goto :eofCOPY

TOP

@(gawk "{ar[$0]+=1000001}END{for(i in ar)print substr(ar[i],length(ar[i])-5,6) \":\" i}" | sort | sed "s/^0*\([0-9]\)*:\(.*\)$/\2    \1/")<aa.txt >11.txtCOPY
gawk 和 sed 是第三方命令,自己下一个吧

TOP

返回列表