Board logo

标题: [文本处理] [已解决]TXT文本去除乱码以及转换成unicode编码 [打印本页]

作者: yiduancang    时间: 2012-8-24 21:19     标题: [已解决]TXT文本去除乱码以及转换成unicode编码

本帖最后由 yiduancang 于 2013-10-22 14:25 编辑

一个文件夹下TXT 10多W的TXT文章  编码一般为ANSI   想去除文章中非字母 数字以及标点符号的乱码  以前文章少的时候是用notepad++  用正则[^a-zA-Z0-9,\.:;!\-\s] 替换 现在数量上十万百万级别的了 没办法搞了
几点小细节讲下:
1:BAT 写成拖动文件夹到BAT上面运行
2:包含子目录的去除乱码和编码转换
3:原始编码一般是ANSI 也有时候是UTF8 能否做成设定原始编码 或者直接检测编码?
4:处理后的TXT放在该文件夹所在盘根目录(比如文件是在D盘。。就生成在D盘根目录)下生成新文件夹 名称就以乱码处理+原文件名


其实比较担心百万级别的数量 BAT对付不了。。。以前经常出现处理到一半挂掉整个数据都没  所以第4点特别重要啊  不知道能写出来不。。烦恼啊 烦恼。。数量太多。
作者: canyuexiaolang    时间: 2012-8-25 06:20

第四点特别简单。但是处理乱码不知有何思路....
作者: yiduancang    时间: 2012-8-25 09:21

回复 2# canyuexiaolang


    比如类似用正则 [^a-zA-Z0-9,\.:;!\-\s]  这样?




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2