- 帖子
- 53
- 积分
- 27
- 技术
- 0
- 捐助
- 0
- 注册时间
- 2011-12-8
|
[文本处理] [已解决]TXT文本去除乱码以及转换成unicode编码
本帖最后由 yiduancang 于 2013-10-22 14:25 编辑
一个文件夹下TXT 10多W的TXT文章 编码一般为ANSI 想去除文章中非字母 数字以及标点符号的乱码 以前文章少的时候是用notepad++ 用正则[^a-zA-Z0-9,\.:;!\-\s] 替换 现在数量上十万百万级别的了 没办法搞了
几点小细节讲下:
1:BAT 写成拖动文件夹到BAT上面运行
2:包含子目录的去除乱码和编码转换
3:原始编码一般是ANSI 也有时候是UTF8 能否做成设定原始编码 或者直接检测编码?
4:处理后的TXT放在该文件夹所在盘根目录(比如文件是在D盘。。就生成在D盘根目录)下生成新文件夹 名称就以乱码处理+原文件名
其实比较担心百万级别的数量 BAT对付不了。。。以前经常出现处理到一半挂掉整个数据都没 所以第4点特别重要啊 不知道能写出来不。。烦恼啊 烦恼。。数量太多。 |
|