Rank: 2

帖子: 110
积分: 167
技术: 0
捐助: 0
注册时间: 2012-2-23

1楼 跳转到 » 正序看帖

字体大小: tT

发表于 2015-4-24 20:00 | 只看该作者

[文本处理] [已解决]批处理怎样删除重复项？

本帖最后由 necnec1 于 2015-4-26 09:38 编辑

这3组数据每组都有2个@  锚定了3个组成部分 123_abc ecdfo 3685215             注明  3685215 后面紧跟的 6562  58  2 656 222 这些数据不重要

第2个@后面紧跟的3685215才是重要数据  我想根据这个数去检测第一个@前面的的数据  123_abc CFSA 123_abc  是否有重复

结果很明显  第一组和第三组  出现了2个123_abc 和2个3685215  说明他们是相同的
随便删除其中一个  保留其中一个就好了
最后的结果就是

文本有大概200多万行  请高手帮忙用最快的办法处理一下  谢谢

bailong360

上尉

Rank: 5 Rank: 5

帖子: 578
积分: 1235
技术: 170
捐助: 60
注册时间: 2012-8-5

8楼

发表于 2015-4-25 18:13 | 只看该作者

回复 7# necnec1

已修改

TOP

necnec1

二级士官

Rank: 2

帖子: 110
积分: 167
技术: 0
捐助: 0
注册时间: 2012-2-23

7楼

发表于 2015-4-25 14:39 | 只看该作者

本帖最后由 necnec1 于 2015-4-26 09:39 编辑

回复 6# bailong360

TOP

bailong360

上尉

Rank: 5 Rank: 5

帖子: 578
积分: 1235
技术: 170
捐助: 60
注册时间: 2012-8-5

6楼

发表于 2015-4-25 09:39 | 只看该作者

本帖最后由 bailong360 于 2015-4-25 18:13 编辑

#&@>"New.txt" gawk -f %0 -F "@" Your.txt&exit
{split($3,a," ");if (data[a[1],$1]!=1) {data[a[1],$1]=1;print $0}}
复制代码

1 评分人数

necnec1: 非常好谢谢技术 + 1

TOP

necnec1

二级士官

Rank: 2

帖子: 110
积分: 167
技术: 0
捐助: 0
注册时间: 2012-2-23

5楼

发表于 2015-4-24 21:09 | 只看该作者

回复 2# yangfengoo

回复2楼我文件的结构跟我提供的3行基本是一致的只要保证2个@左中右 3组关键数据完全一致就可以了

TOP

necnec1

二级士官

Rank: 2

帖子: 110
积分: 167
技术: 0
捐助: 0
注册时间: 2012-2-23

4楼

发表于 2015-4-24 21:07 | 只看该作者

如果可以的话可以按照 3685215 这组数排序相同的行放在一起这样方便查找

TOP

pan528

六级士官

Rank: 4

帖子: 172
积分: 403
技术: 2
捐助: 0
注册时间: 2008-5-11

3楼

发表于 2015-4-24 21:02 | 只看该作者

回复 1# necnec1

每行的顺序重要吗？或者说重新排序会影响使用吗？

TOP

yangfengoo

上尉

Rank: 5 Rank: 5

帖子: 441
积分: 1312
技术: 39
捐助: 0
注册时间: 2009-4-26

2楼

发表于 2015-4-24 20:59 | 只看该作者

文件过大最好用第三方命令，另外需要部分测试样本

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] [已解决]批处理怎样删除重复项？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]