Board logo

标题: [文本处理] 批处理怎样删除组成元素相同的重复行? [打印本页]

作者: DAIC    时间: 2011-9-2 11:55     标题: 批处理怎样删除组成元素相同的重复行?

文本中有很多行,下面只是一部分,每行都是三列随机数字:
1 1 1
1 1 2
1 2 1
2 3 0
2 1 1
0 2 3
4 5 6

只要组成元素相同,就视为重复行。比如以下三行均视为重复行:
1 1 2
1 2 1
2 1 1
还有以下两行也是重复行:
2 3 0
0 2 3

对于重复行,任意保留中一行即可。对于非重复行,原样保留。
作者: CrLf    时间: 2011-9-2 12:44

来一个兼容性很差的...抛砖了哈:
  1. @echo off&setlocal enabledelayedexpansion
  2. for /f "delims=" %%a in (1.txt) do (
  3.    set /a n=0
  4.    for %%b in (%%a) do set /a "n+=1<<%%b"
  5.    if not defined _!n! echo %%a
  6.    set _!n!=_
  7. )
  8. pause
复制代码

作者: DAIC    时间: 2011-9-2 13:42

回复 2# CrLf


多谢版主
请问兼容性差是指什么?
作者: DAIC    时间: 2011-9-2 15:30

回复 4# else


多谢,看来2楼的代码不能用了,我的数据很重要,不能漏掉。
作者: CrLf    时间: 2011-9-2 18:05

来一个列排序版的,用的是比较简陋的排序方式,列数一多就蛋疼了...
  1. @echo off&setlocal enabledelayedexpansion
  2. for /f "tokens=1-3" %%a in (1.txt) do (
  3. set /a a=%%a,b=%%b,c=%%c
  4. for %%d in (c-b b-a c-b) do (
  5. for /f "tokens=1,2 delims=-" %%e in ("%%d") do (
  6. if !%%e! gtr !%%f! set /a %%e=!%%f!,%%f=!%%e!
  7. )
  8. )
  9. if not defined _!a!_!b!_!c! (
  10. echo %%a %%b %%c
  11. set _!a!_!b!_!c!=_
  12. )
  13. )
  14. pause
复制代码

作者: CrLf    时间: 2011-9-2 18:30

来一个不那么蛋疼的,只要在 str 中给够足量的变量名,应可兼容任意列数:
  1. @echo off&setlocal enabledelayedexpansion
  2. set str=a b c
  3. ::abc 分别代表三个变量名,表示只有三列
  4. for %%a in (!str!) do (
  5. for /f %%b in ("!str:*%%a=!") do (
  6. if defined list set "list=!list!%%a "
  7. set "list=%%a !list!"
  8. set list=!list:%%a =%%b-%%a !
  9. )
  10. )
  11. ::获取用于 if 判断的顺序表
  12. for /f "delims=" %%a in (1.txt) do (
  13. set tmp=%%a
  14. for %%b in (%str%) do (
  15. for /f %%c in ("!tmp!") do set %%b=%%c
  16. set tmp=!tmp:~2!
  17. )
  18. rem 设置每列的值到对应变量
  19. for %%d in (%list%) do (
  20. for /f "tokens=1,2 delims=-" %%b in ("%%d") do (
  21. if !%%b! gtr !%%c! set /a %%b=!%%c!,%%c=!%%b!
  22. )
  23. )
  24. if not defined _!a!_!b!_!c! (
  25. echo %%a
  26. set _!a!_!b!_!c!=_
  27. )
  28. )
  29. pause
复制代码

作者: 545810831    时间: 2011-9-2 21:42

每一行元素相同且都是数字, 相同的数字之和相等,元素都必然相同
  1. @echo off
  2. setlocal enabledelayedexpansion
  3. for /f "tokens=1-3" %%a in (1.txt) do (
  4. set /a num=%%a+%%b+%%c
  5. for /f "tokens=1-4" %%i in ("!num! %%a %%b %%c") do (
  6. set /a _%%i+=1
  7. if "!_%%i!"=="1" echo %%j %%k %%l
  8. )
  9. )
  10. pause
复制代码

作者: DAIC    时间: 2011-9-2 22:23

回复 9# 545810831


1+2+3=2+2+2
作者: 545810831    时间: 2011-9-3 06:21

错了?解决不了问题
作者: 545810831    时间: 2011-9-5 11:21

一行各个元素平方和只有各个元素相同时才会相等,所以稍稍改一下代码即可,不知文本有多长,可能导致卡机?
作者: CrLf    时间: 2011-9-5 12:34

有想法,不过也是不严谨,3 0 0 与 2 2 1 平方和相同
作者: CrLf    时间: 2011-9-5 12:40

不过如果列数与指数相同,好像没想到有反例可以证明这种算法不严谨
作者: sxw    时间: 2011-9-5 14:08

本着解决问题的思想,如果只是数字可以试试用Perl解决:
  1. #!/usr/bin/perl
  2. use warnings;
  3. use strict;
  4. my %count;
  5. while (<DATA>) {
  6. my @number=split;
  7. chomp (my $sorted_number=join "",sort { $a <=> $b } @number);
  8. $count{$sorted_number}++;
  9. print "$_" if $count{$sorted_number}==1;
  10. }
  11. __END__
  12. 1 1 1
  13. 1 1 2
  14. 1 2 1
  15. 2 3 0
  16. 2 1 1
  17. 0 2 3
  18. 5 4 6
  19. 4 5 6
  20. 7 8 9
  21. 8 7 9
  22. 1 1 1
复制代码

作者: wc726842270    时间: 2011-9-5 16:35

  1. @echo off
  2. if exist temp1.txt (del /a /f temp1.txt)
  3. if exist temp2.txt (del /a /f temp2.txt)
  4. for /f "tokens=1-3" %%i in (1.txt) do (
  5.     (echo %%i&echo %%j&echo %%k)|sort
  6. )>>temp1.txt
  7. for /f "tokens=1,2 delims=:" %%i in ('findstr /n .* temp1.txt') do (
  8.     setlocal enabledelayedexpansion
  9.     set /a a=%%i%%3
  10.     if !a! equ 1 (echo.&&set /p=%%j<nul) else (set /p=%%j<nul)
  11. )>>temp2.txt
  12. del /a /f temp1.txt
  13. pause
复制代码
运行这个代码可以帮你转换成"去掉重复行",之后就好处理了
好久没写了,可能不给力
作者: wc726842270    时间: 2011-9-5 17:05

另外怎么没人用冒泡排序啊,个人认为可以在FOR /F中用它来达到我16L的转换
作者: ArdentMan    时间: 2011-9-5 19:42

效率不太好
  1. @Echo Off&SetLocal EnableDelayedExpansion
  2. (For /F "delims=" %%i In (a.txt) Do (
  3.   Set "Str="
  4.   For /F %%j In ('^(For %%j In ^(%%i^) Do Echo %%j^)^|Sort') Do Set "Str=!Str! %%j"
  5.   If Not Defined _!Str:~1! Echo %%i&Set "_!Str:~1!=a"
  6. ))>b.txt
  7. Start b.txt
复制代码

作者: 545810831    时间: 2011-9-7 15:57

我之前没有经过论证就做出论断 "一行各个元素平方和只有各个元素相同时才会相等" 是错误的,我找几个数
如 6 6 7 和6 9 2 他们的平方和是121  而他们组成元素是不同的
作者: 545810831    时间: 2011-9-7 16:07

我之前没有做过论证就做出了判断:"一行各个元素平方和只有各个元素相

同时才会相等" 我找几个数 如6 6 7 和6 9 2 他们的平方和是121,而他

们组成元素是不同的
作者: Batcher    时间: 2011-9-7 18:13

回复 20# 545810831


勾股定理就是一个比较容易想到的反例
作者: awk    时间: 2011-9-18 20:58

  1. gawk "!a[$1^5+$2^5+$3^5]++" a.txt
复制代码

作者: awk    时间: 2011-9-18 21:00

  1. gawk "!a[10^$1+10^$2+10^$3]++" a.txt
复制代码

作者: awk    时间: 2011-9-18 21:02

  1. gawk "BEGIN {p[0]=2;p[1]=3;p[2]=5;p[3]=7;p[4]=11;p[5]=13;p[6]=17;p[7]=19;p[8]=23;p[9]=29;}!a[p[$1]*p[$2]*p[$3]]++" a.txt
复制代码





欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2