[文本处理] 【已解决】gawk：统计文本中特定字符的个数，据此统计另一文本中具有同样个数的字符

本帖最后由思想之翼于 2024-12-5 19:25 编辑

D:\DATA\1.txt 记录字符：
中国中国中国美国
欧盟法国法国德国

D:\DATA\2.txt 记录字符：
中国美国美国
法国法国法国法国
英国德国美国德国
中国中国

如何使用gawk工具，先统计 1.txt 中特定字符“中国”的出现次数N，上例N=3，（特定字符“中国”预先写入代码，而非在代码运行过程中弹出页面手动输入），
据此，统计 2.txt 中出现次数N=3的字符，上例N=3的字符为中国美国，写入D:\DATA\3.txt

最终输出结果：
3.txt
中国美国

【注】下列代码，统计 1.txt 2.txt 字符出现次数：

gawk -v"RS=\r?\n| " "{++a[$0][FILENAME];f[FILENAME]}END{PROCINFO[\"sorted_in\"]=\"@ind_str_desc\";for(i in a)for(j in f)if(!a[i][j]){};for(i in a){printf i;s=1;for(j in a[i]){sId=s?\":\":\",\";printf sId\" %s 记录 %d 次\",j,a[i][j];s=0}print\"\"}}" 1.txt 2.txt>3.txt
复制代码

3.txt结果：
中国: 2.txt 记录 3 次, 1.txt 记录 3 次
英国: 2.txt 记录 1 次, 1.txt 记录 0 次
欧盟: 2.txt 记录 0 次, 1.txt 记录 1 次
美国: 2.txt 记录 3 次, 1.txt 记录 1 次
法国: 2.txt 记录 4 次, 1.txt 记录 2 次
德国: 2.txt 记录 2 次, 1.txt 记录 1 次

1 评分人数

Batcher: 感谢给帖子标题标注[已解决]字样技术 + 2

aloha20200628

少校

Rank: 6 Rank: 6

帖子: 943
积分: 1600
技术: 214
捐助: 0
注册时间: 2021-10-13

2楼

发表于 2024-12-5 18:43 | 只看该作者

本帖最后由 aloha20200628 于 2024-12-5 18:47 编辑

回复 1# 思想之翼

快递一个 bat+gawk 版本，用 gawk.exe v4.1.3版测试通过...

@echo off &cd /d "d:\data" &setlocal &set "c=中国"
for /f %%n in (
  'awk "{c+=gsub(/%c%/,\"﹢\")}END{print c}" 1.txt') do (for /f "delims=" %%a in (
  'awk "FNR==1{No++}{for(i=0;i++<NF;)a[No][$i]=1}END{for(i in a)for(k in a[i])if(++d[k]==No)print k}" 1.txt 2.txt'
) do for /f %%v in (
  'awk "{c+=gsub(/%%a/,\"﹢\")}END{print c}" 2.txt') do if %%v equ %%n set/p="%%a "<nul)>3.txt
endlocal&pause&exit/b
复制代码

1 评分人数

思想之翼: 感谢! 结果正确技术 + 1

TOP

hfxiang

上尉

Rank: 5 Rank: 5

帖子: 620
积分: 1186
技术: 179
捐助: 0
注册时间: 2022-6-20

3楼

发表于 2024-12-5 18:57 | 只看该作者

回复 1# 思想之翼

gawk -v"RS=\r?\n| " -v"s=中国" "NR==FNR{if($0==s)n++;next}{++a[$0]}END{for(i in a)if(a[i]==n)printf\"%s \",i}" 1.txt 2.txt>3.txt
复制代码

1 评分人数

思想之翼: 感谢分享，速度快捷，结果正确技术 + 1

TOP

Five66

上尉

Rank: 5 Rank: 5

帖子: 864
积分: 1216
技术: 123
捐助: 0
注册时间: 2021-8-26

4楼

发表于 2024-12-5 19:26 | 只看该作者

直接读取1楼代码生成的3.txt来判断次数

gawk -v"N=3" -F"[ :]" "{if($5==N){a=$1\" \";printf(a)}}" 3.txt >3.3.txt
move /y 3.3.txt 3.txt
复制代码

1 评分人数

思想之翼: 学习了技术 + 1

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] 【已解决】gawk：统计文本中特定字符的个数，据此统计另一文本中具有同样个数的字符

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]