批处理之家 - Powered by Discuz! Board

标题: [文本处理] 批处理如何根据文本前8个字母删除重复项？ [打印本页]

作者: necnec1 时间: 2012-12-4 19:57 标题: 批处理如何根据文本前8个字母删除重复项？

4f044489-----G:\JBS\今天\1000000.pdf
ccbee259-----G:\JBS\今天\1000001.pdf
5f7babd1-----G:\JBS\今天\1000002.pdf
592858e0-----G:\JBS\今天\1000003.pdf
0bdbf2f0-----G:\JBS\今天\1000004.pdf
0bdbf2f0-----G:\JBS\今天\1000009.pdf
81142b94-----G:\JBS\今天\1000005.pdf
144be708-----G:\JBS\今天\1000006.pdf

前8个字母是固定的 -----后面是文件的路径和文件名
前8个字母里有些是重复请把重复的剔除保留一组
例如
0bdbf2f0-----G:\JBS\今天\1000004.pdf
0bdbf2f0-----G:\JBS\今天\1000009.pdf

0bdbf2f0出现2次删除其中一组保留一组

作者: weichenxiehou 时间: 2012-12-4 20:13

本帖最后由 weichenxiehou 于 2012-12-4 20:47 编辑

如果要删除实际的文件：

@echo off&setlocal enabledelayedexpansion
md backup 2>nul
::将下一行的a.txt替换为实际文本名
for /f "tokens=1* delims=-" %%a in ('sort a.txt') do (
  if "!str!"=="%%a" move "%%b" backup\
  set "str=%%b"
)
复制代码

如果只是修改文本：

gawk -F- "{arr[$1]++;if(arr[$1]==1)print}"a.txt>result.txt
复制代码

作者: necnec1 时间: 2012-12-4 21:00

weichenxiehou
gawk -F- "{arr[$1]++;if(arr[$1]==1)print}"a.txt>result.txt
这段代码在CMD里运行失败

C:\Documents and Settings\Administrator>cd c:\

C:\>gawk -F- "{arr[$1]++;if(arr[$1]==1)print}"a.txt>result.txt
gawk: {arr[$1]++;if(arr[$1]==1)print}a.txt
gawk: ^ syntax error

作者: weichenxiehou 时间: 2012-12-4 21:21

回复 3# necnec1
a.txt前面少了一个空格，加上试试吧。

作者: necnec1 时间: 2012-12-4 21:50

非常好使已完美解决谢谢weichenxiehou

作者: BAT-VBS 时间: 2012-12-5 11:04

回复 2# weichenxiehou

简化一下：

gawk -F- "!a[$1]++" a.txt >b.txt
复制代码

欢迎光临批处理之家 (http://www.bathome.net/)