批处理之家 - Powered by Discuz! Board

标题: [网络连接] [已解决]wget下载的网页源码是乱码 [打印本页]

作者: hlzj88 时间: 2018-10-31 19:35 标题: [已解决]wget下载的网页源码是乱码

本帖最后由 hlzj88 于 2018-11-1 22:21 编辑

各位论坛大佬，请教了
问题如题，下载顶点的圣墟，这是其中两个地址

wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" --no-check-certificate -e robots=off -c -t 0 -T 40 "https://www.23us.so/files/article/html/13/13694/13271729.html"

wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" --no-check-certificate -e robots=off -c -t 0 -T 40 "https://www.23us.so/files/article/html/13/13694/13122995.html"

第1个下载后的文件源码是乱码，另存为下是 ansi编码，第2个是正常的，另存为是 utf-8编码。
在浏览器上查看上面两个地址的源码都是正常的。

请教有何办法破解并兼容，最好是在wget软件的基础上。

作者: 523066680 时间: 2018-11-1 07:54

本帖最后由 523066680 于 2018-11-1 08:18 编辑

回复 1# hlzj88

可能该页面特殊，默认返回gzip格式，改名为.zip，解压后就有了。
干脆统一请求gzip格式，获取后统一解压。

wget --header="Accept-Encoding:gzip" --no-check-certificate -e robots=off -c -t 0 -T 40 "https://www.23us.so/files/article/html/13/13694/13271729.html" --adjust-extension

作者: hlzj88 时间: 2018-11-1 22:14

谢谢 523066680 版主，如你说进行操作，能得到正确网页。

欢迎光临批处理之家 (http://www.bathome.net/)