标题: [文本处理] htox32c转换htm2txt 汉字乱码 [打印本页]
作者: BAT1 时间: 2011-10-8 17:09 标题: htox32c转换htm2txt 汉字乱码
遇上加了/IP参数还是乱码的怎么办?
htm文件使用记事本打开时是UTF-8编码的。- @echo off
- curl -o 123.txt http://www.sge.sh/publish/sge/xqzx/jyxq/index.htm
- md htm
- pause
- title 下载数据文件
- set n=0
- setlocal enabledelayedexpansion
- for /f "delims=><= tokens=4skip=170" %%i in (123.txt) do (
- set a=%%i
- echo http://www.sge.sh/publish/sge/xqzx/jyxq/%%i
- if "!a:~-4,3!"=="htm" set /a n+=1 & echo %%i !n! & curl -o htm\!n!.htm http://www.sge.sh/publish/sge/xqzx/jyxq/%%i
- )
-
- title 转换文件格式
- HtoX32c /ip /O0 htm\*.htm
- md txt 2>nul
- move htm\*.txt txt\>nul
- pause
- exit
复制代码
作者: wc726842270 时间: 2011-10-8 17:35
这个网站的CHARSET是UTF-8,没什么说的
试一下HtoX32c /i8 /O0 htm\*.htm(HtoX32c,curl我这儿都没有,也懒得下了)
作者: BAT1 时间: 2011-10-8 17:41
回复 2# wc726842270
换成/i8 也是乱码
作者: wc726842270 时间: 2011-10-8 17:50
呵呵,这个没有做试验,给你个网址也许对你有帮助:
【原创】用批处理+curl+HtoX32c整理中国医药网上的医院名录信息http://bbs.et8.net/bbs/showthread.php?t=1014614
作者: wc726842270 时间: 2011-10-8 18:50
刚才无聊做了一下试验,发现HtoX32c可以将GB2312正常转换(也就是说没有乱码),而LZ所提供的网站是用UTF-8的,所以出现的点问题,有兴趣可以用VBS下载
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |