[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] [已解决]TXT文本去除乱码以及转换成unicode编码

本帖最后由 yiduancang 于 2013-10-22 14:25 编辑

一个文件夹下TXT 10多W的TXT文章  编码一般为ANSI   想去除文章中非字母 数字以及标点符号的乱码  以前文章少的时候是用notepad++  用正则[^a-zA-Z0-9,\.:;!\-\s] 替换 现在数量上十万百万级别的了 没办法搞了
几点小细节讲下:
1:BAT 写成拖动文件夹到BAT上面运行
2:包含子目录的去除乱码和编码转换
3:原始编码一般是ANSI 也有时候是UTF8 能否做成设定原始编码 或者直接检测编码?
4:处理后的TXT放在该文件夹所在盘根目录(比如文件是在D盘。。就生成在D盘根目录)下生成新文件夹 名称就以乱码处理+原文件名


其实比较担心百万级别的数量 BAT对付不了。。。以前经常出现处理到一半挂掉整个数据都没  所以第4点特别重要啊  不知道能写出来不。。烦恼啊 烦恼。。数量太多。

回复 2# canyuexiaolang


    比如类似用正则 [^a-zA-Z0-9,\.:;!\-\s]  这样?

TOP

第四点特别简单。但是处理乱码不知有何思路....

TOP

返回列表