标题: 【出题】批处理实现16进制数据最小体积存储 [打印本页]
作者: plp626 时间: 2011-5-11 23:00 标题: 【出题】批处理实现16进制数据最小体积存储

复制代码
设计一种编码批处理变量存放方案,将上面的字符信息用尽量少的字符个数储存,当使用的时候,又可以用相应的方案还原。
简单的理解就是类似于数据压缩与解压缩操作。
要求,用cmd的内部命令实现。
----------------------------------------
PS: 这个“设计方案”所含的批处理代码不要过长,体积的计算要把这个“设计方案”所含代码和储存信息一起计算。
当然,如果方案能通用的话,可以适当放宽设计方案所含代码的长度
作者: plp626 时间: 2011-5-11 23:07
本帖最后由 plp626 于 2011-5-11 23:21 编辑
PS: 这个“设计方案”所含的批处理代码不要过长,体积的计算要把这个“设计方案”所含代码和储存信息一起计算。
当然,如果方案能通用的话,可以适当放宽设计方案所含代码的长度
-----------------------------------
有人也许会问这个能干什么? 我说下应用,当然还是娱乐,但“娱乐度”比较高,呵呵。
有个霍夫曼编码,可以对所发报文以最短编码存储,我们把他应用到bat2any(利用debug写文件)那个程序里,可以最大限度的压缩文件的体积,
假如有人想把三方工具嵌入到bat中,这样体积可以压缩很多多多。。。。
作者: hanyeguxing 时间: 2011-5-12 12:07
如果源文件是 32 位命令行,直接使用 UPX 压缩
作者: plp626 时间: 2011-5-12 12:43
3# hanyeguxing
上面这个exe文件体积就1K多,选择编译的时候我加了/align:16,体积最小模式,upx没法再压缩了
作者: caruko 时间: 2011-5-12 13:24
16*16 =256
一个简单的办法就是使用ACSII码。
DEBUG即可互相转换。
作者: CrLf 时间: 2011-5-12 15:31
同上,相信大家第一反映都差不多,不过我想,无论用ansi码或者什么码来以字典的形式与原始数据一一对应,其根本思路无非是把16进制转换为更高位的进制,以填补用1~2个字节只记录一个十六进制数时浪费的容量。
对于调用第三方、debug、vbs等方法不做评论,因为想必都是可行的,不过我想楼主的意思大概是尽量用纯批的吧。
再说一个大众看法,大家肯定都想到了,只是没说。首先,字典肯定要用到的,再用A个字典里的字符与B个十六进制数对应,不过要知道A:B的最佳比例,就要做一个计算:将能在批处理中识别为单字符的单字节ansi码数量设为N,然后求N与16的最小公倍数,然后...你知道的,不解释
作者: terse 时间: 2011-5-12 15:58
转 Base64码
作者: hanyeguxing 时间: 2011-5-12 18:56
楼主提供的本身就是源文件的 ANSI 。。。
作者: terse 时间: 2011-5-12 19:28
转 Base64码 后文件原来的 2/3
作者: 523066680 时间: 2011-5-12 21:24
我看0出现很多次,要不用N个0表示 恩恩
作者: plp626 时间: 2011-5-12 21:30
我目前,理论上,
可以把一楼的数据压缩到1100 字节左右(不含解压代码)
也就是压缩为原来体积的37%左右。
不知大家的结果是怎样的?
作者: CrLf 时间: 2011-5-12 23:26
如果引入有损压缩的概念,压缩比必定更高
作者: batman 时间: 2011-5-13 00:02
本帖最后由 batman 于 2011-5-13 00:57 编辑
思路:
0-9的数字就用原值存储(原来用两个字符存储压缩一半),a-z和A-Z全用a-z表示(压缩比视大小写字母比),非数值非字母可见字符用原值存储(原来用两个字符存储压缩一半,),回车换行退格分别用A、B、C存储(压缩一半)。复制代码
作者: hanyeguxing 时间: 2011-5-13 03:40
11# plp626
用批处理自身来存储、解压,怎么能不算解压代码呢?
作者: terse 时间: 2011-5-13 11:33
另一思路 把一定长度字符(转为10进制) 除一固定数 储存这个信息
作者: plp626 时间: 2011-5-13 11:48
15# terse
貌似是个新颖的想法, 但我没理解你的思路,能说详细点么?
作者: CrLf 时间: 2011-5-13 13:20
另一思路 把一定长度字符(转为10进制) 除一固定数 储存这个信息
terse 发表于 2011-5-13 11:33
这是有损的,而且十进制数的存储能力似乎反而比十六进制数更低吧
作者: plp626 时间: 2011-5-13 13:27
有损压缩 一般用于图行领域,也没能力研究。
我考虑的是exe可执行文件或者rar压缩文件,当然不能有半点损。
作者: CrLf 时间: 2011-5-13 13:49
10楼的方法看起来不错哦,
另外,可以模仿视频压缩的技术,有一种视频是动态的场景帧数多,静态的场景帧数少
如果是在实战中,很可能连续碰到多个含0?的字节,这时候是不是可以把010201010f0e07记成.05_1211fe7呢?
还有既然都是数字,也许也可以考虑做个函数,将x、y、z放入其中,就能算出后面的一系列数字。这想法跟字典其实还是差不多,但是大概有那么一点区别吧
作者: CrLf 时间: 2011-5-13 13:52
本帖最后由 zm900612 于 2011-5-13 13:57 编辑
前面说的有损压缩,我的想法是,有许多字符组合也许不可能出现在16进制编码中的,就像0D0A、0A0A或者0D0D不会出现在由记事本正常输入的txt文件中,那就可以把它们排除在字典之外,这样字典的容量就会提升,这种有损压缩是损字典,不损压缩内容。
作者: hanyeguxing 时间: 2011-5-13 14:04
本帖最后由 hanyeguxing 于 2011-5-13 14:06 编辑
由于连续0很多,所有优先处理0:
1,1个0依然记作0
2,2个0按双字节处理,替换为I
3,大于2个的0,则替换为Hnn或Gn,n为0的个数
由于这里0的个数分为3到9之间和10到100之间,所以区分为Hnn和Gn
其次处理连续F,替换为Jn,n为F的个数
再次,以单字符替换多字符(大于等于4),例如替换5F5F为K等
至于剩余的字母是否替换其他双字节字符,个人认为大多没必要了,因为增加的代码量会过高,可以考虑处理出现最多的几个
作者: terse 时间: 2011-5-13 15:34
本帖最后由 terse 于 2011-5-13 15:36 编辑
继续对重复字符处理的话 如AAAAAAAA 是否可以这样 %8a%
至于 字符转10进制 处理 有难度
仅处理特殊串 如FFFFFFF- set/a N=0xfffffff/0xffffff,R=0xfffffff-n*0xffffff
复制代码
得商 16 余数 F
这里难度主要是余数的处理 因为余数有 长度等同ffffff长度的情况
转Base64码 后原码的2/3体积 这个应该无损哦
另我认为字符大小写应该区分的- TVqQAAMAAAAEAAAA//8AALgAAAAAAAAAQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA4AAAAA4fug4AtAnNIbgBTM0hVGhpcyBwcm9ncmFtIGNhbm5vdCBiZSBydW4gaW4gRE9TIG1vZGUuDQ0KJAAAAAAAAABITPKKDC2c2QwtnNkMLZzZDC2c2Q8tnNljMpbZBy2c2Y8xktkNLZzZYzKY2Q8tnNkMLZ3ZHC2c2ToLltkNLZzZUmljaAwtnNkAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABQRQAATAEDACtjyk0AAAAAAAAAAOAADwELAQYAkAEAADACAAAAAAAAjgIAAFACAADgAwAAAABAABAAAAAQAAAABAAAAAAAAAAEAAAAAAAAABAGAABQAgAAAAAAAAMAAAAAABAAABAAAAAAEAAAEAAAAAAAABAAAAAAAAAAAAAAADQEAAA8AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAADgAwAARAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAC50ZXh0AAAAggEAAFACAACQAQAAUAIAAAAAAAAAAAAAAAAAACAAAGAucmRhdGEAAMoBAADgAwAA0AEAAOADAAAAAAAAAAAAAAAAAABAAABALmRhdGEAAABcAAAAsAUAAGAAAACwBQAAAAAAAAAAAAAAAAAAQAAAwIN8JAQDfQ9oxAVAAOgnAAAAWWoBWMOLRCQIM8lRUf9wCP9wBFHoUgEAAGjABUAA6AQAAABZM8DD/yXgA0AAVYvsav9oKARAAGjAA0AAZKEAAAAAUGSJJQAAAACD7CBTVleJZeiDZfwAagH/FQwEQABZgw0ABkAA/4MNBAZAAP//FQgEQACLDfwFQACJCP8VBARAAIsN+AVAAIkIoQAEQACLAKMIBkAA6MMAAACDPeAFQAAAdQxovANAAP8V/ANAAFnolAAAAGi8BUAAaLgFQADofwAAAKH0BUAAiUXYjUXYUP818AVAAI1F4FCNRdRQjUXkUP8V9ANAAGi0BUAAaLAFQADoTAAAAP8V8ANAAItN4IkI/3Xg/3XU/3Xk6N/+//+DxDCJRdxQ/xXsA0AAi0XsiwiLCYlN0FBR6A8AAABZWcOLZej/ddD/FeQDQAD/JegDQAD/JfgDQABoAAADAGgAAAEA6A0AAABZWcMzwMPD/yUQBEAA/yUUBEAA/yUcBEAAAAAAAAAAAAAAAAAAAAC0BAAAyAQAANAEAADeBAAA5gQAAPYEAAAGBQAAEgUAACYFAAA2BQAARgUAAFQFAABmBQAAegUAAAAAAACIBQAAAAAAAAAAAAD/////fgNAAJIDQABwBAAAAAAAAAAAAAC8BAAA4AMAAKwEAAAAAAAAAAAAAJ4FAAAcBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAC0BAAAyAQAANAEAADeBAAA5gQAAPYEAAAGBQAAEgUAACYFAAA2BQAARgUAAFQFAABmBQAAegUAAAAAAACIBQAAAAAAAKECcHV0cwAATVNWQ1JULmRsbAAA0wBfZXhpdABIAF9YY3B0RmlsdGVyAEkCZXhpdAAAZABfX3BfX19pbml0ZW52AFgAX19nZXRtYWluYXJncwAPAV9pbml0dGVybQCDAF9fc2V0dXNlcm1hdGhlcnIAAJ0AX2FkanVzdF9mZGl2AABqAF9fcF9fY29tbW9kZQAAbwBfX3BfX2Ztb2RlAACBAF9fc2V0X2FwcF90eXBlAADKAF9leGNlcHRfaGFuZGxlcjMAALcAX2NvbnRyb2xmcAAAPgBVUkxEb3dubG9hZFRvRmlsZUEAAHVybG1vbi5kbGwAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABPSyEAVXNhZ2U6IERPV04gPHVybD4gPHBhdGg+AAAAAAEATVqQ
复制代码
作者: plp626 时间: 2011-5-13 16:08
本帖最后由 plp626 于 2011-5-13 17:18 编辑
我目前,理论上,
可以将一楼的数据 至少 压缩 掉 2/3,即压缩为原来体积 1/3 以下(不含解压代码),突破1000字节。
如果再引入字典删去重复,将接近1/4,即压缩到接近900字节或少于900字节。
作者: plp626 时间: 2011-5-13 17:04
特殊编码存放测试[code]
作者: plp626 时间: 2011-5-13 17:04
复制代码
作者: wankoilz 时间: 2011-5-17 23:04
本帖最后由 wankoilz 于 2011-5-17 23:56 编辑
楼上是什么意思,能不能讲解下。
哦...知道了,那是从chcp 437代码页复制过来的特殊符号吧...
作者: caruko 时间: 2011-5-18 01:55
把你的数据转了一下变成UNICODE编码,原来是个MZ头的PE文件,好像是下载用的。
将这些数据导入DEBUG,前面增加2个字节“FF FE”,即可变成新文本,大小1.5k,原文本是2.94k,接近减少一半。
然后将文本附加到bat里 copy /b newfile+my.bat mynew.bat
需要的时候,cmd /U /C more +n mynew.bat >temp
即可导出UNICODE编码文件,去掉FF FE就还原了。
压缩率不高,主要是00 没有做去重复处理。
作者: caruko 时间: 2011-5-18 02:00
原本以为UNICODE 编码占2个字节,也就是4个字符变成一个字符,比起 ASCII 压缩率要高,应该是1/4。
然而字符数目是短了,但是一个字符2字节,实际只减少了1/2。
作者: Demon 时间: 2011-5-31 16:54
PS: 这个“设计方案”所含的批处理代码不要过长,体积的计算要把这个“设计方案”所含代码和储存信息一起计算。
当然,如果方案能通用的话,可以适当放宽设计方案所含代码的长度
-----------------------------------
有人也许会问这个能干什么? 我说下应用,当然还是娱乐,但“娱乐度”比较高,呵呵。
有个霍夫曼编码,可以对所发报文以最短编码存储,我们把他应用到bat2any(利用debug写文件)那个程序里,可以最大限度的压缩文件的体积,
假如有人想把三方工具嵌入到bat中,这样体积可以压缩很多多多。。。。
plp626 发表于 2011-5-11 23:07
直接用二进制不就行了,和原来一样大。
作者: lllsoslll 时间: 2011-11-15 21:35
- 4d5a9i3l4kffffib8s4/47eme1fba0egb409cd21b8014ccd21546869732070726f6772616d2063616e6e6f742062652072756e20696e20444f53206d6f64652e0d0d0a24s484cf28a0c2d9cd90c2d9cd90c2d9cd90c2d9cd90f2d9cd9633296d9072d9cd98f3192d90d2d9cd9633298d90f2d9cd90c2d9dd91c2d9cd93a0b96d90d2d9cd9526963680c2d9cd9/305045i4c0103gfab0b64e/10eif010b0106g8g1i1g2q7e02i5g2idg3m4h1l1m4t4seg5i5g2r3o1j1n1j1r1/172404i3c/a6dg3i44/362e74657874k7201i5g2i8g1i5g2/1c2j602e7264617461ica01idg3idg1idg3/1c4j402e64617461k3ckag5i4lag5/1c4jc0837c2404027e1f8b44240833c95151ff7g8ff7g451e85101i68bg54he803k59c3ccff25dg34h558bec6aff6818044h68bg34h64a1m50648925m83ec205356578965e88365fcg6a01ff15fc034h59830ddg54hff830dd4054hffff15f8034h8b0dcc054h8908ff15f4034h8b0dc8054h8908a1fg34h8bga3d8054he8c3k833db4054j750c68ac034hff15ec034h59e894k68ac054h68a8054he87fka1c4054h8945d88d45d850ff35cg54h8d45e0508d45d4508d45e450ff15e4034h68a4054h68ag54he84ckff15eg34h8b4de08908ff75e0ff75d4ff75e4e8effeffff83c4308945dc50ff15dc034h8b45ec8b088b09894dd05051e80fk5959c38b65e8ff75d0ff15d4034hff25d8034hff25e8034h68j3g68j1ge80dk5959c333c0c3c3ff25h44hff2504044hff250c044/1fa404ib804icg4ice04id604ie604if604j205i1605i2605i3605i4405i5605i6a05q7805/14ffffffff6e034h82034h6g4/14ac04idg3i9c04/148e05jc04/2ca404ib804icg4ice04id604ie604if604j205i1605i2605i3605i4405i5605i6a05q7805qa10270757473i4d53564352542e646c6cid3g5f65786974g48g5f5863707446696c746572g490265786974i64g5f5f705f5f5f696e6974656e76g58g5f5f6765746d61696e61726773hf015f696e69747465726dg83g5f5f736574757365726d617468657272i9dg5f61646a7573745f66646976i6ag5f5f705f5f636f6d6d6f6465i6fg5f5f705f5f666d6f6465i81g5f5f7365745f6170705f74797065icag5f6578636570745f68616e646c657233ib7g5f636f6e74726f6c667j3eg55524c446f776e6c6f6164546f46696c6541i75726c6d6f6e2e646c6c/304f4b21h1/56
复制代码
作者: aa77dd@163.com 时间: 2016-9-13 10:53
BASE64 字节位的利用率是 6/8 = 75%, 需要用比原始信息多出 1 / (6/8) - 1 = 1/3 (编码增长率 33%) 的字节数才能完整表达
BASE64 编码增长率 33%
设想:
如果将 BASE64 进一步发展, 将字节位的利用率提高到 7/8 , 只需要用比原始信息多出 1 / (7/8) - 1 = 1/7 的字节数就能完整表达
BASE128 编码增长率 14%
BASE128 如果可行, 将字节位的利用率提高到 7/8, 但需要用到 128 个可打印字符
ASCII 字符中二进制最高位为 0 的字符是 0x0 ~ 0x7F, 只有 128 个, 但其中还有若干控制字符, 所以不够用, 而 0x80 ~ 0xFF 的最高二进制位都是 1 , 将会与多字节文本编码冲突
------------------------------ BASE128 不可行 ------------------------------
Ascii85 可以将编码增长率降到 25%
https://en.wikipedia.org/wiki/Ascii85
basE91 encoding 可以将编码增长率降到 23%
http://base91.sourceforge.net/
作者: codegay 时间: 2016-9-13 10:59
本帖最后由 codegay 于 2016-9-13 11:22 编辑
回复 31# aa77dd@163.com
base85已经有很多特殊字符了。bat中能处理得过来?
python版的base91 实现
https://github.com/aberaud/base91-python/blob/master/base91.py
c和python base92
https://github.com/thenoviceoof/base92
作者: aa77dd@163.com 时间: 2016-9-13 11:14
回复 32# codegay
我用 basE91 中非字母非数字的 29 个字符- !#$%&()*+,./:;<=>?@[]^_`{|}~"
复制代码
输入到 QR CODE 生成器(批处理方式)中, 正确生成了 二维码, 扫描还原结果正确
http://bbs.bathome.net/viewthrea ... p;extra=&page=1
作者: happy886rr 时间: 2016-10-27 17:01
本帖最后由 happy886rr 于 2016-10-27 17:04 编辑
base64加权解码器
不算解压代码仅1.39K,转门针对exe压缩,并且过滤论坛特殊词gc d 、fl g等。亦可采用LZ77算法。- @echo off
- setlocal enabledelayedexpansion
-
- ::*********BASE64 加权解码器*********
- set $=set [#]&CALL :BASE64_PRESS&set [$]=A&((for %%Z in ([,],{,},_,$,#,-,@) do (set [$]=![$]!![$]!&for %%S in (![$]!) do (for /l %%i in (1,1,2) do (!$!%%i=![#]%%i:%%Z=%%S!))))&for /l %%i in (1,1,2) do (set/p=![#]%%i:.=!<NUL))>1.BSEP&certutil -decode 1.BSEP 1.exe&pause&exit /b
- ::***********************************
-
- :BASE64_PRESS
-
- !$!1=TVqQ[M]E]//8[Lg{AQ_{][A4]A4fug4AtAnNIbgBTM0hVGhpcyBwcm9ncmFtIGNhbm5vdCBiZSBydW4gaW4gRE9TIG1vZGUuDQ0KJ{ABITPKKDC2c2QwtnNkMLZzZDC2c2Q8tnNljMpbZBy2c2Y8xktkNLZzZYzKY2Q8tnNkMLZ3ZHC2c2ToLltkNLZzZUmljaAwtnNk}{][ABQRQ[TAEDACtjyk0{[O[DwELAQYAkAE[DAC{jgI[FAC[DgAw]B[B]AQ]B{[E{ABAG[BQAg{M][B[AB][E[AE{B{][ADQE[A8$_{][DgAw[R_]C50ZXh0]ggE[FAC[CQAQ[UAI}[C[AGAucmRhdGE[MoB[DgAw[0AE[OAD}[B[ABALmRhdGE[ABc]sAU[G]CwBQ}[Q[AwIN8JAQDfQ9oxAV[Ogn]WWoBWMOLRCQIM8lRUf9wCP9wBFHoUgE[GjABU[6AQ[ABZM8DD/yXgA0[VYvsav9oKAR[Gj[0[ZKE]AUGSJJQ]CD7CBTVleJZeiDZfwAagH/FQwEQABZgw0ABk[/4MNBAZ[P//FQgEQACLDfwFQACJCP8VBAR[IsN+AV[IkIoQAEQACLAKMIBk[6MM[ACDPeAFQ[AdQxovAN[P8V/AN[Fnol]Gi8BU[aLgFQADofw[AKH0BU[iUXYjUXYUP818AV[I1F4FCNRdRQjUXkUP8V9AN[Gi0BU[aLAFQADoT]P8V8AN[ItN4IkI/3Xg/3XU/3Xk6N/+//+DxDCJRdxQ/xXsA0[i0XsiwiLCYlN0FBR6A8[ABZWcOLZej/ddD/FeQDQAD/JegDQAD/JfgDQABo[ADAGg[AEA6A0[ABZWcMzwMPD/yUQBE[/yUUBE[/yUcBE}]C0B[AyAQ[NAE[DeB[A5gQ[PYE[AGBQ[EgU[CYF[A2BQ[RgU[FQF[BmBQ[egU][ACIBQ{]D/////fgN[JIDQABwB{]AC8B[A4AM[KwE{]AJ4F[AcB}{]AC0B[AyAQ[N
- !$!2=AE[DeB[A5gQ[PYE[AGBQ[EgU[CYF[A2BQ[RgU[FQF[BmBQ[egU][ACIBQ][AKECcHV0cw[TVNWQ1JULmRsb[A0wBfZXhpdABIAF9YY3B0RmlsdGVyAEkCZXhpd[AZABfX3BfX19pbml0ZW52AFgAX19nZXRtYWluYXJncwAPAV9pbml0dGVybQCDAF9fc2V0dXNlcm1hdGhlcnI[J0AX2FkanVzdF9mZGl2[BqAF9fcF9fY29tbW9kZQ[bwBfX3BfX2Ztb2Rl[CBAF9fc2V0X2FwcF90eXBl[DKAF9leGNlcHRfaGFuZGxlcjM[LcAX2NvbnRyb2xmc[APgBVUkxEb3dubG9hZFRvRmlsZUE[HVybG1vbi5kbGw}{][ABPSyEAVXNhZ2U6IERPV04gPHVybD4gPHBhdGg+][EA
- goto :EOF
复制代码
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |