标题: [文本处理] 请问去重复行的批处理如何修改为批量处理? [打印本页]
作者: 娜美 时间: 2023-9-18 14:42 标题: 请问去重复行的批处理如何修改为批量处理?
- @echo off
- setlocal
- (for /f "delims=" %%i in (a.txt) do (
- if not defined %%i (
- echo,%%i
- set %%i=1
- )
- ))>b.txt
- endlocal
- pause
复制代码
改为批量执行会错误, 结果不对, 请问如何修改为批量处理- @echo off
- setlocal
- (for /f "delims=" %%i in (%%i.txt) do (
- if not defined %%i (
- echo,%%i
- set %%i=1
- )
- ))>%%i.txt
- endlocal
- pause
复制代码
作者: pd1 时间: 2023-9-18 16:58
%%i.txt 是什么- @echo off
- setlocal
- for /f "delims=" %%a in ('dir /b *.txt') do (
- (for /f "delims=" %%i in (%%a) do (
- if not defined %%i (
- echo,%%i
- set %%i=1
- )
- set %%i=
- )))>%%a.txt
- endlocal
- pause
复制代码
作者: 娜美 时间: 2023-9-18 17:12
本帖最后由 娜美 于 2023-9-18 17:25 编辑
回复 2# pd1 - @echo off
- setlocal
- for /f "delims=" %%a in ('dir /b *.txt') do (
- (for /f "delims=" %%i in (%%a) do (
- if not defined %%i (
- echo,%%i
- set %%i=1
- )
- set %%i=
- )))>%%a.txt
- endlocal
- pause
复制代码
主题代码是去重复行的 执行后, 输出了整个原文本, 似乎失效, 不知道啥原因
例
1.txt
C
B
A
C
2.txt
A
B
C
A
作者: pd1 时间: 2023-9-18 17:30
- @echo off
- powershell -c "dir *.txt|%{gc $_|Select-Object -Unique|sc $_}"
- pause
复制代码
作者: pd1 时间: 2023-9-18 17:33
我不知道那个是去重的,所以就随便改了应该是我改的有问题吧
批处理水平不行,还得再学习
作者: thp2008 时间: 2023-9-18 19:11
Python 保存xxx.py 要先安装Python- # 获取输入文件名
- input_file = input("请输入需要去除重复行的文本文件名: ")
-
- # 确保输入文件存在
- try:
- with open(input_file, 'r', encoding='utf-8') as file:
- lines = file.readlines()
- except FileNotFoundError:
- print(f"文件 '{input_file}' 不存在,请确保文件名正确。")
- exit(1)
-
- # 创建输出文件名
- output_file = input_file.replace('.', '-BuCF.')
-
- # 去除重复行并保存到输出文件,保持原始顺序
- unique_lines = []
- seen = set()
- for line in lines:
- if line not in seen:
- unique_lines.append(line)
- seen.add(line)
-
- with open(output_file, 'w', encoding='utf-8') as file:
- file.writelines(unique_lines)
-
- print(f"已去除重复行并保存到 '{output_file}' 文件中。")
复制代码
作者: thp2008 时间: 2023-9-18 19:13
批量版本的- import os
-
- # 创建 output 子目录
- if not os.path.exists('output'):
- os.mkdir('output')
-
- # 获取当前目录下的所有 *.txt 文件
- txt_files = [filename for filename in os.listdir() if filename.endswith('.txt')]
-
- for input_file in txt_files:
- # 确保输入文件存在
- try:
- with open(input_file, 'r', encoding='utf-8') as file:
- lines = file.readlines()
- except FileNotFoundError:
- print(f"文件 '{input_file}' 不存在,请确保文件名正确。")
- continue
-
- # 创建输出文件名
- output_file = os.path.join('output', input_file.replace('.', '-BuCF.'))
-
- # 去除重复行并保存到输出文件,保持原始顺序
- unique_lines = []
- seen = set()
- for line in lines:
- if line not in seen:
- unique_lines.append(line)
- seen.add(line)
-
- with open(output_file, 'w', encoding='utf-8') as file:
- file.writelines(unique_lines)
-
- print(f"已去除重复行并保存到 'output/{output_file}' 文件中。")
复制代码
作者: 娜美 时间: 2023-9-18 19:38
哥哥们怎么搞的变复杂了
只想将主题代码改为批量执行后输出对应文件名就行
2楼哥哥理解正确, 但是执行后没有发挥作用
用bat只因为要添加到bat脚本中,
作者: Five66 时间: 2023-9-18 20:07
本帖最后由 Five66 于 2023-9-18 20:41 编辑
已编辑,看10~12楼
作者: buyiyang 时间: 2023-9-18 20:20
回复 9# Five66
set %%i=1这里可能会有问题,可能会有行以数字开头, 而变量名不能以数字开头。
作者: buyiyang 时间: 2023-9-18 20:24
这个方法去重有一个局限,批处理单个环境变量最大为8192B,所有变量的总共不能超过65536KB,如果单行字符过多、单个文件过大会有误差。
作者: aloha20200628 时间: 2023-9-18 20:28
采用变量字典的去重方案有几点注意,虽是老调重弹,但用于大数据场合依然有限》
一。单个文件行数限制
二。单行字符长度限制
三。文本行皆为a-zA-Z字母时,变量字典定义因不区分大小写而失误- @echo off
- for /f "delims=" %%a in ('dir /b/a-d *.txt') do (
- setlocal enabledelayedexpansion
- (for /f "usebackq delims=" %%i in ("%%~a") do if not defined _%%i (
- set "_%%i=1" &echo,%%i))>"%%~a.new"
- endlocal
- )
复制代码
作者: Five66 时间: 2023-9-18 20:34
回复 10# buyiyang
感谢,涨姿势了
作者: Batcher 时间: 2023-9-18 20:53
回复 2# pd1
根据楼主的描述来猜测,把setlocal放到循环内部比较合适:- @echo off
- for /f "delims=" %%a in ('dir /b /a-d *.txt') do (
- setlocal
- (for /f "delims=" %%i in ('type "%%~a"') do (
- if not defined _%%i (
- set "_%%i=1"
- echo,%%i
- )
- ))>"%%~a.new"
- endlocal
- )
复制代码
作者: 娜美 时间: 2023-9-18 21:02
回复 14# Batcher
对了, 原来可以这样, 谢谢哥哥
作者: 娜美 时间: 2023-9-18 21:07
采用变量字典的去重方案有几点注意,虽是老调重弹,但用于大数据场合依然有限》
一。单个文件行数限制
二。单行字符长度限制
三。文本行皆为a-zA-Z字母时,变量字典定义因不区分大小写而失误
正确, 多谢哥哥提醒
作者: 77七 时间: 2023-9-18 21:16
- @echo off
- for /f "delims=" %%i in ('dir /b /a-d *.txt') do (
- cd.>"%%~ni_2%%~xi"
- for /f "useback delims=" %%a in ("%%i") do (
- findstr /xc:"%%a" "%%~ni_2%%~xi" 1>nul
- if errorlevel 1 (
- >>"%%~ni_2%%~xi" echo %%a
- )
- )
- )
- pause
复制代码
作者: 娜美 时间: 2023-9-18 21:40
回复 17# 77七
嗯嗯, 哥哥的区分了大小写, 只是有特殊字符的不能
作者: aloha20200628 时间: 2023-9-18 21:51
变量名字典采用前缀 _ 或 $ 或 # 等字符乃是一种防空对策,一旦遭遇文本行皆为空格时,set =... 就会出现问题。
另提示17楼》循环体内的外部程序被频繁调用会导致运行效率明显滑坡,尤其是要管控内层循环,其效应是倍增的...
作者: pd1 时间: 2023-9-18 21:57
回复 14# Batcher - @echo off
- set var=123
- set num=4456
- set a=ham
- setlocal
- set var=abcd
- set num=jkl
- set a=efg
- set max=1234567
- echo %var% %num% %a%
- endlocal
- echo %var% %num% %a%
- pause
复制代码
搜了一下setlocal endlocal 这个例子可以理解。
上面这个放for里面是对哪个变量本地化?%%a吗 我试了下把setlocal endlocal 全删了也能成功
作者: 娜美 时间: 2023-9-18 22:05
回复 12# aloha20200628
大哥哥, 似乎不支持大小写, 和特殊字符, 如果需要大小写, 和支持尽可能多特殊字符呢 ?
作者: 77七 时间: 2023-9-18 22:29
- @echo off
- for /f "useback delims=" %%i in (`dir /b /a-d *.txt`) do (
- setlocal
- for /f "useback delims=" %%a in (`sort "%%i"^&echo #@#@#`) do (
- if not defined str1 (
- set "str1=%%a"
- ) else (
- set "str2=%%a"
- setlocal enabledelayedexpansion
- if "!str1!" neq "!str2!" (
- >>"%%~ni_2%%~xi" echo !str1!
- )
- endlocal
- set "str1=%%a"
- )
- )
- endlocal
- )
- pause
复制代码
未过多测试,不知道行不行,文本排序后,将某一行与下一行比较,如果不等,则打印某一行。
排序会改变。
作者: aloha20200628 时间: 2023-9-18 23:54
如果实际应用场合没有那么多纯P的'天敌',变量名字典真是纯P代码得以如此轻快的一个好方法。
再给一个jscript+纯P混编的版本(存盘为.cmd或.bat文件),但愿能助纯P一臂之力...- @set @v=1 /*
- @echo off
- ::当前目录(不含子目录)下所有*.txt文件去重
- dir /b/a-d *.txt>"tmp.all"
- cscript /e:jscript "%~f0" "tmp.all"
- del /q "tmp.all"
- exit/b
- */
- var v = WSH.arguments;
- var fso = new ActiveXObject('scripting.filesystemobject');
- var fp = fso.opentextfile(v(0));
- var strline = fp.readall(); fp.close();
- var alllines = strline.split('\r\n');
- while (alllines[alllines.length-1] == '') alllines.length--;
- for (var n=0, nmax=alllines.length; n<nmax; ++n) {
- var txtF = alllines[n].replace(/\r\n/g, '');
- fp = fso.opentextfile(txtF);
- strline = fp.readall(); fp.close();
- var _strline = '\r\n', _alllines = strline.split('\r\n');
- while (_alllines[_alllines.length-1] == '') _alllines.length--;
- for (var k=0, kmax=_alllines.length; k<kmax; ++k) {
- if (_strline.indexOf('\r\n'+_alllines[k]+'\r\n') == -1)
- _strline += _alllines[k]+'\r\n';
- }
- if (_strline == '\r\n') continue;
- fp = fso.opentextfile(txtF+'.new', 2, true);
- fp.write(_strline.substr(2)); fp.close();
- }
- WSH.quit();
复制代码
作者: 娜美 时间: 2023-9-19 08:42
回复 22# 77七
哥哥的也正确
作者: 娜美 时间: 2023-9-19 08:43
回复 23# aloha20200628
谢谢哥哥
作者: Batcher 时间: 2023-9-19 09:13
回复 20# pd1
请用两种写法分别试试这个测试用例。
1.txt内容如下:
bathome
net
2.txt内容如下:
bathome
作者: pd1 时间: 2023-9-19 09:33
回复 26# Batcher
意思就是处理完第一个文件后,如果变量定义不清掉,第二个文件里如果有同样的字符,会被认为前面已经出现过吧
作者: Batcher 时间: 2023-9-19 09:56
回复 27# pd1
是的。写在外面的话,有点类似于把所有文本合并在一起去重的效果。
作者: aloha20200628 时间: 2023-9-19 11:19
如果仅是优化纯P版本,还是要加持一些容错装备,以下是对12楼代码的订正...
不仅是“吃入”时要用双引号包裹%%i,“吐出”时也要用双引号包裹%%i,但须改用set/p...写出方可。
入时双引号包裹可保全变量名中特殊字符,如 set "123 zx|er&qw!kk%uu^12=1"。出时双引号包裹可保全绝大部分特殊字符,但!^会溜号。
变量延迟须包裹内循环体,就是为防止多个文件未处理完即有可能被变量名字典剧增而打爆CMD内存,例如两个5000+行的文件,若去重率极低,就可能会用尽内存开销...- @echo off
- for /f "delims=" %%a in ('dir /b/a-d *.txt') do (
- setlocal enabledelayedexpansion
- (for /f "usebackq delims=" %%i in ("%%~a") do if not defined _%%i (
- set "_%%i=1"
- set/p="%%i"<nul
- echo,)
- )>"%%~a.new"
- endlocal
- )
复制代码
作者: Batcher 时间: 2023-9-19 11:32
回复 29# aloha20200628
setlocal足以,enabledelayedexpansion是否可以去掉
作者: aloha20200628 时间: 2023-9-19 13:20
setlocal/endlocal 与 setlocal enabledelayedexpansion/endlocal 均能继承而不改变外部%v%,但前者没有!v!创建、引用及其延迟功能。个人习惯采用后者以便代码变化应需而留有余地,且不多几个字符。
作者: qixiaobin0715 时间: 2023-9-23 09:38
setlocal...endlocal 和 setlocal enabledelayedexpansion...endlocal 使用时难道效率上会有差别?
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |