hkldd

Rank: 1

帖子: 38
积分: 74
技术: 0
捐助: 0
注册时间: 2013-3-16

1楼 跳转到 » 倒序看帖

打印

字体大小: tT

发表于 2014-3-19 17:37 | 只看该作者

[文本处理] 如何用批处理BAT统计txt文档相似度？

文档容量太大，已切割成1000000行n个txt文档，为了把相似度述说清楚，附件中用数字来代替需求，就像附件a.txt

文档中的数字，任意5个数字相同的行就提取进行统计，把结果写入b.txt文档中。谢谢大家！
a.txt

05 06 07 08 09 25
05 06 07 08 09 26
05 06 07 08 09 27
05 06 07 08 09 28
05 06 07 08 09 29
05 06 07 08 09 30
05 06 07 08 09 31
05 06 07 08 09 32
05 06 07 08 09 33
05 06 07 08 10 11
05 06 07 08 10 12
05 06 07 08 10 13
05 06 07 08 10 14
05 06 07 08 10 15
05 06 07 08 10 16
05 06 07 08 10 17
05 06 07 08 09 25
05 06 07 08 09 26
01 02 03 04 05 06
01 02 03 04 05 07
01 02 03 04 05 08
01 02 03 04 05 09
01 02 03 04 05 10
01 02 03 04 05 11
01 02 03 04 05 12
01 02 03 04 05 13
01 02 03 04 05 14
01 02 03 04 05 15
01 02 03 04 05 16
01 02 03 04 05 17
01 02 03 04 05 18
01 02 03 04 05 19
01 02 03 04 05 20
01 02 03 04 05 21
01 02 03 04 05 22
01 02 03 04 05 23
复制代码

b.txt

01 02 03 04 05  18
05 06 07 08 09  11
05 06 07 08 10  7
06 07 08 09 25  2
06 07 08 09 26  2
复制代码

b.txt中第6列数是统计次数

apang

上将

Rank: 8 Rank: 8

帖子: 2085
积分: 14204
技术: 665
捐助: 0
注册时间: 2011-11-27

2楼

发表于 2014-3-19 21:21 | 只看该作者

以顶楼a.txt为例，生成的b.txt应该是这样吧？
06 07 08 09 25 2
05 07 08 09 25 2
05 06 08 09 25 2
05 06 07 09 25 2
05 06 07 08 25 2
05 06 07 08 09 11
06 07 08 09 26 2
05 07 08 09 26 2
05 06 08 09 26 2
05 06 07 09 26 2
05 06 07 08 26 2
05 06 07 08 10 7
01 02 03 04 05 18

TOP

PowerShell

上尉

Rank: 5 Rank: 5

帖子: 437
积分: 1319
技术: 27
捐助: 0
注册时间: 2013-6-30

3楼

发表于 2014-3-19 22:53 | 只看该作者

统计文本的相似度，这是高端大气上档次的玩意，就好像搞原子蛋一样，而bat貌似茶叶蛋吧，呵呵。

搞原子蛋，是极难的！
文本是有单词，行，段落，等组成的，这就要分词功能，还要有字典，字典大小还要不能太小，其中的智能化，谁又会写这块功能？

不可否认的是统计文本的相似度，是压缩文本文件的必要课题。
1 你应研究半年winrar源码，搞懂其中的智能话原理。
旁白：我有一个1g的纯数字文本文档，用winrar5压缩完了是1.4m，用7-zip lzma2 +最大字典压缩完了是15.8m
2或许【智能化代码】+powershell+盘古分词。net 是一个靠谱的决定。

脚本是写给人看的,是写给用户看的,而不是写给机子看的
用户能看懂、会修改的脚本,才是好脚本。
写易懂的powershell脚本帮人解决问题,进而让用户学会自渔,吾所愿也

TOP

Tuberose

上等兵

Rank: 1

帖子: 34
积分: 52
技术: 0
捐助: 0
注册时间: 2010-11-24

4楼

发表于 2014-3-20 10:52 | 只看该作者

字符串相似度算法 Levenshtein Distance 大全
http://rosettacode.org/wiki/Levenshtein_distance

统计文本的相似度没有找到

TOP

cjiabing

荣誉版主

Rank: 8 Rank: 8

帖子: 1726
积分: 4476
技术: 95
捐助: 0
注册时间: 2008-12-21

5楼

发表于 2014-3-20 19:25 | 只看该作者

也可以做，只是很罗嗦而已！~
最好能看到原始样本，如果不方便，你可以找个人私聊帮忙解决。

寂寞是黑白的，但黑白不是寂寞，是永恒。BAT 需要的不是可能，而是智慧。

TOP

web

中尉

Rank: 5 Rank: 5

帖子: 83
积分: 983
技术: 0
捐助: 0
注册时间: 2012-10-13

6楼

发表于 2014-3-23 22:15 | 只看该作者

本帖最后由 web 于 2014-3-24 16:59 编辑

任意5个数字相同的行就提取进行统计
不好意思没看清题意可以试试 findstr /c:

 


for /f " delims="  %%s in (b.txt) do (
findstr /c:"%%s" a.txt >>次数.txt
)
 
复制代码

如何统计b里边每行数在a里边每行包含出现的次数给出代码

如果全部相同以下代码可以

参考这里吧http://bbs.bathome.net/thread-24860-1-1.html

 
@echo off&setlocal enabledelayedexpansion
sort 5.txt | findstr . >temp.tx
set /pstr=<temp.tx
set num=1000000001
(for /f "skip=1 delims=" %%i in (temp.tx) do (     
    if "!str!" neq "%%i" (
       echo;!num:~1!  !str!
       set num=1000000001
    ) else set /a num+=1
      set str=%%i
)
       echo;!num:~1!  !str!
)>sort.txt
sort /r sort.txt >temp.tx
(for /f "tokens=* delims=0" %%i in (temp.tx) do echo;%%i)>sort.txt
del temp.tx

 
复制代码

terse

 
@(gawk "{ar[$0]+=1000001}END{for(i in ar)print substr(ar[i],length(ar[i])-5,6) \":\" i}" | sort | sed "s/^0*\([0-9]\)*:\(.*\)$/\2    \1/")<aa.txt >11.txt
 
复制代码

复制代码gawk 和 sed 是第三方命令，自己下一个吧
CrLf

TOP

web

中尉

Rank: 5 Rank: 5

帖子: 83
积分: 983
技术: 0
捐助: 0
注册时间: 2012-10-13

7楼

发表于 2014-3-27 19:28 | 只看该作者

有高手给你解决问题了去看看吧
http://www.bathome.net/viewthrea ... mp;page=1#pid146236

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] 如何用批处理BAT统计txt文档相似度？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]