标题:
[网络连接]
[已解决]wget下载的网页源码是乱码
[打印本页]
作者:
hlzj88
时间:
2018-10-31 19:35
标题:
[已解决]wget下载的网页源码是乱码
本帖最后由 hlzj88 于 2018-11-1 22:21 编辑
各位论坛大佬,请教了
问题如题,下载顶点的圣墟,这是其中两个地址
wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" --no-check-certificate -e robots=off -c -t 0 -T 40 "https://www.23us.so/files/article/html/13/13694/13271729.html"
wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" --no-check-certificate -e robots=off -c -t 0 -T 40 "https://www.23us.so/files/article/html/13/13694/13122995.html"
第1个下载后的文件源码是乱码,另存为下是 ansi编码,第2个是正常的,另存为是 utf-8编码。
在浏览器上查看上面两个地址的源码都是正常的。
请教有何办法破解并兼容,最好是在wget软件的基础上。
作者:
523066680
时间:
2018-11-1 07:54
本帖最后由 523066680 于 2018-11-1 08:18 编辑
回复
1#
hlzj88
可能该页面特殊,默认返回gzip格式,改名为.zip,解压后就有了。
干脆统一请求gzip格式,获取后统一解压。
wget --header="Accept-Encoding:gzip" --no-check-certificate -e robots=off -c -t 0 -T 40 "https://www.23us.so/files/article/html/13/13694/13271729.html" --adjust-extension
作者:
hlzj88
时间:
2018-11-1 22:14
谢谢 523066680 版主,如你说进行操作,能得到正确网页。
欢迎光临 批处理之家 (http://www.bathome.net/)
Powered by Discuz! 7.2