批处理之家 » BAT求助&讨论 » [已解决]批处理删除并提取重复的中文汉字超过3个字的行。

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

返回列表发帖

Rank: 3 Rank: 3

帖子: 134
积分: 232
技术: 0
捐助: 0
注册时间: 2012-9-21

1楼 跳转到 » 正序看帖

字体大小: tT

发表于 2015-3-6 13:28 | 只看该作者

[文本处理] [已解决]批处理删除并提取重复的中文汉字超过3个字的行。

本帖最后由每天几分于 2015-3-6 16:17 编辑

臂 sky
璧 skd
边 lz
边 lzd
边 vpd
砭 spz
笾 zlz
餐 bx
餐 bxg
餐 can
餐 ihp
编 ah
编 ahu
编 vvh
煸 hhu
复制代码

如上，不用排序，只把重复的中文汉字超过3个字的行删除，并将删除的字所在行单独提取出来。

最终实现如下2个文本

臂 sky
璧 skd
砭 spz
笾 zlz
煸 hhu
复制代码

边 lz
边 lzd
边 vpd
餐 bx
餐 bxg
餐 can
餐 ihp
编 ah
编 ahu
编 vvh
复制代码

Rank: 8 Rank: 8

帖子: 6388
积分: 18843
技术: 982
捐助: 100
注册时间: 2010-10-9

7楼

发表于 2015-3-6 18:42 | 只看该作者

@echo off
setlocal enabledelayedexpansion
for /f "tokens=1*" %%a in (1.txt) do set /a [%%a]+=1
(for /f "delims==" %%b in ('set [') do if ![%%b]! geq 3 echo %%b)>$
findstr /r /b /g:$ "1.txt">不符合.txt
findstr /r /b /v /g:$ "1.txt">符合.txt
del $
pause
复制代码

1 评分人数

每天几分: 谢谢！技术 + 1

链接：在线第三方命令行工具下载 bat、vbs、js 原生混编

Rank: 8 Rank: 8

帖子: 2874
积分: 7021
技术: 336
捐助: 0
注册时间: 2011-6-2

6楼

发表于 2015-3-6 17:14 | 只看该作者

gawk "{if(a[$1]++)print>\"2.txt\";else print>\"3.txt\"}" 1.txt
复制代码

sed.exe gawk.exe grep.exe 下载地址

Rank: 8 Rank: 8

帖子: 3041
积分: 5333
技术: 685
捐助: 0
注册时间: 2014-10-19

5楼

发表于 2015-3-6 16:47 | 只看该作者

回复 4# 每天几分

@echo off
setlocal enabledelayedexpansion
for /f "tokens=1*" %%a in ('type "1.txt"') do (
set n=0
findstr /r /c:"%%a" "1.txt" >$
for /f "delims=" %%i in ($) do set /a n+=1
if !n! gtr 2 (>>不符合.txt echo,%%a %%b) else (>>符合.txt echo,%%a %%b)
del $
)
pause
复制代码

1 评分人数

每天几分: 谢谢！技术 + 1

Rank: 3 Rank: 3

帖子: 134
积分: 232
技术: 0
捐助: 0
注册时间: 2012-9-21

4楼

发表于 2015-3-6 16:17 | 只看该作者

谢谢3楼的apang，就是要这样的效果。
2楼的朋友，我已经在一楼重新编辑了，表述可能有点问题，看代码那里容易理解点。只针对中文汉字重复。

Rank: 8 Rank: 8

帖子: 2085
积分: 14204
技术: 665
捐助: 0
注册时间: 2011-11-27

3楼

发表于 2015-3-6 14:55 | 只看该作者

@echo off
setlocal enabledelayedexpansion
(for /f %%a in ('sort 1.txt ^& echo,') do (
        if "%%a" NEQ "!a!" (
                if !n! GEQ 3 echo,!a!
                set n=1
        ) else set /a n+=1
        set "a=%%a"
))>$
findstr /ibvg:$ 1.txt > 2.txt
findstr /ibg:$ 1.txt > 3.txt
pause
复制代码

1 评分人数

每天几分: 非常感谢，就是这样！技术 + 1

Rank: 8 Rank: 8

帖子: 3041
积分: 5333
技术: 685
捐助: 0
注册时间: 2014-10-19

2楼

发表于 2015-3-6 14:23 | 只看该作者

回复 1# 每天几分
问题一、重复字数超过3个字的行，这句有歧义，像下面的删哪些呢？空格算一个重复字符吗？

边 lz
边 lzd
边 lzld
边 lzzd
复制代码

问题二、如果是以下情况删不删呢？

边 lz
边 dzl (删?)
边 vpdyzipll(删?)
复制代码