返回列表发帖

QIAOXINGXING

六级士官

Rank: 4

帖子: 241
积分: 431
技术: 24
捐助: 0
注册时间: 2011-9-15

1楼 跳转到 » 倒序看帖

打印

字体大小: tT

发表于 2014-5-16 17:58 | 只看该作者

[问题求助] Python如何下载整个网页，包括image,js,css等？

如何下载整个网页，不只是单个html文件，还包括image,js,css等，就像用浏览器按Ctrl+S一样。
试了第三方wget和python的urllib.urlopen(),都只能得到html，网上说模拟浏览器什么的，就不太懂了。。。
多谢出手相助。。。

更新：需要登陆才能获取完整信息，有没有什么办法能把浏览器已经打开的页面批量保存下来？

Batcher

管理员

Rank: 12

帖子: 14935
积分: 46142
技术: 857
捐助: 745
注册时间: 2008-6-9

2楼

发表于 2014-5-16 20:23 | 只看该作者

http://bbs.bathome.net/thread-29456-1-1.html

我帮忙写的代码不需要付钱。如果一定要给，请在微信群或QQ群发给大家吧。
【微信公众号、微信群、QQ群】http://bbs.bathome.net/thread-3473-1-1.html
【支持批处理之家，加入VIP会员！】http://bbs.bathome.net/thread-67716-1-1.html

TOP

QIAOXINGXING

六级士官

Rank: 4

帖子: 241
积分: 431
技术: 24
捐助: 0
注册时间: 2011-9-15

3楼

发表于 2014-5-16 20:53 | 只看该作者

本帖最后由 QIAOXINGXING 于 2014-5-16 20:57 编辑

回复 2# Batcher

谢谢！
有些信息要登陆才能看到，之前搞过登陆，貌似很麻烦。。。有没有什么方法能把浏览器已经打开的页面保存下来？？

TOP

DAIC

中将

Rank: 8 Rank: 8

帖子: 2874
积分: 7021
技术: 336
捐助: 0
注册时间: 2011-6-2

4楼

发表于 2014-5-16 20:58 | 只看该作者

Google搜索网站整站下载器

sed.exe gawk.exe grep.exe 下载地址

TOP

QIAOXINGXING

六级士官

Rank: 4

帖子: 241
积分: 431
技术: 24
捐助: 0
注册时间: 2011-9-15

5楼

发表于 2014-5-16 23:33 | 只看该作者

Google搜索网站整站下载器
DAIC 发表于 2014-5-16 20:58

谢了！
试了httrack-3.48.8、超级网站整站下载器 v2.0 破解绿色版、Teleport Ultra，前两个不支持登陆，Teleport 输了密码用户名也没用。

TOP

QIAOXINGXING

六级士官

Rank: 4

帖子: 241
积分: 431
技术: 24
捐助: 0
注册时间: 2011-9-15

6楼

发表于 2014-5-17 16:21 | 只看该作者

本帖最后由 QIAOXINGXING 于 2014-5-17 16:34 编辑

下载html，同时把img、css、js下载下来，有很多问题，先就这样吧。。。。
参考链接：http://stackoverflow.com/questio ... r/13855315#13855315

对于登陆，用IE登陆网站，再用IEC 获取html页面。。

#!/usr/bin/python 
#coding:utf-8
from HTMLParser import HTMLParser
import urllib,os
import sys
reload(sys)
sys.setdefaultencoding('gbk')

class MyHTMLParser(HTMLParser):
	def __init__(self):
		HTMLParser.__init__(self)
		self.links =  []
	def handle_starttag(self, tag, attrs):
#		print "Encountered the beginning of a %s tag" % tag
		if tag == 'img' or tag == "script":
			for (variable, value)  in attrs:
				if variable == "src" or variable == "href":
					self.links.append(value)
		if tag == "link":
			dic = dict(attrs)
			if dic['rel']=="stylesheet":
				self.links.append(dic['href'])

def download(pagename,html_code,durl,links):
	if not os.path.exists(pagename+'_files\\'):
		os.mkdir(pagename+'_files\\')
	upurl = durl.rsplit('/',1)[0]
	for link in links:
		fname = link.split('/')[-1]
		fname = fname.split('?')[0]
		localpath = './%s%s' % (pagename+'_files/',fname)
		if link[0:3] == '../':
			downlink = link[3:]
			durl = upurl
		else:
			downlink = link

		try:
			urllib.urlretrieve(durl+'/'+downlink,localpath)
		except Exception,error:
			print 'download error:' , error
		else:
			print 'download '+fname
			html_code = html_code.replace(link,localpath)
	open(pagename+'.html','w').write(html_code)
	return True
if __name__ == "__main__":
	url = 'http://www.bathome.net/thread-30173-1-1.html'
	pagename = 'bathome'

	html_code = urllib.urlopen(url).read()
	hp = MyHTMLParser()
	hp.feed(html_code)
	hp.close()
	durl = url.rsplit('/',1)[0]
	download(pagename,html_code,durl,hp.links)
复制代码

TOP

hlzj88

少校

Rank: 6 Rank: 6

帖子: 826
积分: 1629
技术: 54
捐助: 20
注册时间: 2008-11-3

7楼

发表于 2014-5-17 23:27 | 只看该作者

回复 5# QIAOXINGXING
看到你发言超级网站整站下载器2.0 ，我一直用1.,29，特地下载了2.0，明显感觉不如1.29，要不你试试看

目的，学习批处理

TOP

523066680

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

8楼

发表于 2014-8-8 20:44 | 只看该作者

本帖最后由 523066680 于 2014-8-8 20:46 编辑

发了一个Perl登录论坛的，供参考
bbs.bathome.net/viewthread.php?tid=31338

FuniCode 编程论坛

TOP

秋风·飞扬

上尉

Rank: 5 Rank: 5

帖子: 168
积分: 1008
技术: 0
捐助: 0
注册时间: 2012-4-24

9楼

发表于 2014-9-6 22:55 | 只看该作者

回复 1# QIAOXINGXING wget以及python都是需要多次申请才可以的，第一次爬网页，然后正则，然后下载js,img,css，python用urllib2（短连接可以），正则之后再次提交请求，img，js,css直接用os包解析后缀，然后将流导入到相应文件。

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[问题求助] Python如何下载整个网页，包括image,js,css等？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]