Board logo

标题: [文本处理] 求助批处理文档分割器 [打印本页]

作者: lmq123    时间: 2023-4-16 12:36     标题: 求助批处理文档分割器

本帖最后由 lmq123 于 2023-4-17 18:18 编辑

文本切割,把一个长文本按小于等于≤5000个字符的长度分成几个新的文本,新文本按1,2,3,4命名,生成的新文本的后缀名与原始长文本的后缀名一样


假设长文本是6千字则分为1和2两个文档,
如果长文本是1万2千字则分为123三个文档
以此类推,
长文本以很多单元组成,一段数字+一段长短不一的文字组成为一个单元,长文本分割时只能以单元为基础进行分割,不能把一个单元的字符分别放在前后两个文本中,要么把这个单元放前一个文本中,要么把这个单元放在后一个文本中,假如这个单元放在前一个文本中,这个文本字符超过5000字符了,那就按四舍五入的类似原则,那就把这个单元划入下一个文本算了,
从头到尾,按这个规律分割到底就算完成了

长文本名字是任意的名称,只要把长文本放入批处理同一个文件夹,双击批处理,就产生新的分开的文本了

我QQ1768012545谢谢大家了
h
作者: hfxiang    时间: 2023-4-16 13:47

根据示例数据,可用gawk( http://bcn.bathome.net/tool/4.1.0/gawk.exe )脚本实现:
  1. gawk -vRS="\n\n+" "{n=n+length($0);f=int(n/5000)+1;f=f \".srt\";print($0\"\n\")>f}" 4月10日.srt
复制代码

作者: lmq123    时间: 2023-4-16 15:50

本帖最后由 lmq123 于 2023-4-16 15:57 编辑

回复 2# hfxiang
怎么使用,你的Q号多少,前面那句话刚才弄错了,不是超过2000字就放入后一个文本,而是超过5千放入后一个文本,看了我的百度云附件没有
作者: terse    时间: 2023-4-16 15:58

回复 3# lmq123
就是按每5000字拆分的啊
作者: lmq123    时间: 2023-4-16 16:08

本帖最后由 lmq123 于 2023-4-16 16:09 编辑

回复 4# terse

长文本能不能是任意名称,只要放入与批处理同一个文件夹,双击批处理就可以产生新的分开的文档了
另外gawk文件是与批处理放同一个文件夹吧
作者: lmq123    时间: 2023-4-16 16:12

回复 3# lmq123

列兵



帖子4 积分16 技术0  捐助0  注册时间2023-4-16
5楼
 发表于 刚才 | 只看该作者
回复 4# terse

长文本能不能是任意名称,只要放入与批处理同一个文件夹,双击批处理就可以产生新的
作者: lmq123    时间: 2023-4-16 16:14

回复 2# hfxiang
长文本能不能是任意名称,只要放入与批处理同一个文件夹,双击批处理就可以产生新的分开的文档了
另外gawk文件是与批处理放同一个文件夹吧
作者: buyiyang    时间: 2023-4-16 16:15

回复 5# lmq123


    改了一下2楼的
  1. for %%i in (*.srt) do gawk -vRS="\n\n+" "{n=n+length($0);f=int(n/5000)+1;f=substr(ARGV[1], 1, length(ARGV[1])-4)\"_\" f \".srt\";print($0\"\n\")>f}" %%i
复制代码

作者: lmq123    时间: 2023-4-16 16:26

回复 8# buyiyang
gawk是放入同一个文件夹里面使用吗,要双击启动它吗
作者: buyiyang    时间: 2023-4-16 16:33

回复 9# lmq123


    放同一个文件夹,只要运行bat脚本就行
作者: lmq123    时间: 2023-4-16 18:49

本帖最后由 lmq123 于 2023-4-16 18:52 编辑

能efgghgghhhjjjj
作者: lmq123    时间: 2023-4-16 18:50

本帖最后由 lmq123 于 2023-4-17 00:12 编辑

i,这是我用百度网盘分享的内容~复制这段内容打开「百度网盘」APP即可获取
作者: lmq123    时间: 2023-4-17 00:11

本帖最后由 lmq123 于 2023-4-19 10:32 编辑

回复 10# buyiyang

,能
作者: lmq123    时间: 2023-4-17 14:47

本帖最后由 lmq123 于 2023-4-19 10:33 编辑

回复 10# buyiyang

你好,分割单元很成功,一个单元不会分开在两个文档中,但是文档字符数不怎么准,超过了五千,达到了五千一百或五千二百多了,不知道为何
作者: lmq123    时间: 2023-4-17 19:41

本帖最后由 lmq123 于 2023-4-19 10:34 编辑

回复 10# buyiyang
《先分批处理》
先分类:
先长文档自动化分类成为示例中的样子,分类成两个文档,一个是时间文档一个是内容文档




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2