[网络连接] 批处理如何下载动态网页及图片

Rank: 2

帖子: 77
积分: 104
技术: 0
捐助: 0
注册时间: 2015-11-18

1楼 跳转到 » 倒序看帖

打印

字体大小: tT

发表于 2016-3-9 17:14 | 只看该作者

[网络连接] 批处理如何下载动态网页及图片

本帖最后由 wzf1024 于 2016-3-9 20:23 编辑

有很规律的网页链接，如何用批处理下载，如：
http://pmmp.cnki.net/Operation/Details.aspx?id=0001
http://pmmp.cnki.net/Operation/Details.aspx?id=0002
……
http://pmmp.cnki.net/Operation/Details.aspx?id=3263
手动保存太慢了。
哪位大神帮忙，拜托！！
最好每个网页的图片集中在单独的文件夹，名字与网页对应

happy886rr

等待验证会员

帖子: 961
积分: 2350
技术: 334
捐助: 0
注册时间: 2016-3-7

2楼

发表于 2016-3-9 17:25 | 只看该作者

回复 1# wzf1024

teleport ultra

codegay

少校

Rank: 6 Rank: 6

帖子: 1266
积分: 1775
技术: 162
捐助: 0
注册时间: 2015-12-12

3楼

发表于 2016-3-9 19:11 | 只看该作者

按规律生成网址。用迅雷下载。

去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

Rank: 2

帖子: 77
积分: 104
技术: 0
捐助: 0
注册时间: 2015-11-18

4楼

发表于 2016-3-9 19:52 | 只看该作者

回复 2# happy886rr

teleport ultra不能对付动态网页

Rank: 2

帖子: 77
积分: 104
技术: 0
捐助: 0
注册时间: 2015-11-18

5楼

发表于 2016-3-9 19:55 | 只看该作者

回复 3# codegay

迅雷只能取回文字网页，图片没有

ivor

上校

Rank: 6 Rank: 6

帖子: 979
积分: 3381
技术: 172
捐助: 40
注册时间: 2012-1-7

6楼

发表于 2016-3-9 20:06 | 只看该作者

本帖最后由 ivor 于 2016-3-9 20:51 编辑

回复 1# wzf1024

# coding:utf-8
# 功能:自动检测下载文章中的图片http://pmmp.cnki.net/Operation/Details.aspx?id=xxxx

import bs4
import urllib.request as url
import re
import os

website = 'http://pmmp.cnki.net'
link = 'http://pmmp.cnki.net/Operation/Details.aspx?id=0075'
for j in range(10001,19999):
    try:
        page = link + str(j)[1:]
        print(page)
        response = url.urlopen(page)
        data = bs4.BeautifulSoup(response,'html.parser')
        if not os.path.exists(str(j)[1:]):
            os.mkdir(str(j)[1:])
        for i in data.findAll('img'):
            pic = i['src'][2:]
            sum = '%s%s' % (website,url.quote(url.unquote(pic)))
            jpg = url.urlopen(sum)
            with open('./' + str(j)[1:] + '/' + re.split('/', pic)[-1], 'w+b') as pic_file:
                pic_file.write(jpg.read())
    except:
        pass
复制代码

1 评分人数

wzf1024: 乐于助人技术 + 1

#&cls&@powershell "Invoke-Expression ([Io.File]::ReadAllText('%~0',[Text.Encoding]::UTF8))" &pause&exit

Rank: 2

帖子: 77
积分: 104
技术: 0
捐助: 0
注册时间: 2015-11-18

7楼

发表于 2016-3-9 20:20 | 只看该作者

回复 6# ivor

老大，我运行bat没结果，这个怎么用？看你的图好像所有图片都在一起了，最好每个网页的图片集中在单独的文件夹，名字与网页对应

ivor

上校

Rank: 6 Rank: 6

帖子: 979
积分: 3381
技术: 172
捐助: 40
注册时间: 2012-1-7

8楼

发表于 2016-3-9 20:27 | 只看该作者

回复 7# wzf1024

这是python3.5的代码:https://www.python.org/ftp/python/3.5.1/python-3.5.1.exe
BS4地址:http://www.crummy.com/software/B ... lsoup4-4.4.1.tar.gz

安装完，把代码保存为*.py后缀的就可以了，还需要bs4的模块库

2楼代码更新了

#&cls&@powershell "Invoke-Expression ([Io.File]::ReadAllText('%~0',[Text.Encoding]::UTF8))" &pause&exit

Rank: 2

帖子: 77
积分: 104
技术: 0
捐助: 0
注册时间: 2015-11-18

9楼

发表于 2016-3-9 22:00 | 只看该作者

本帖最后由 wzf1024 于 2016-3-10 00:44 编辑

回复 8# ivor

老大，只取回图片，没有网页文字内容！
希望取回文字存为aspx或htm，包括图片链接，谢谢

pcl_test

荣誉版主

Rank: 8 Rank: 8

帖子: 3041
积分: 5333
技术: 685
捐助: 0
注册时间: 2014-10-19

10楼

发表于 2016-3-9 22:37 | 只看该作者

回复 9# wzf1024

mshta http://bathome.net/s/hta/?echo=false download('http://pmmp.cnki.net/Operation/Details.aspx?id=0001','0001.html')
复制代码

Rank: 2

帖子: 77
积分: 104
技术: 0
捐助: 0
注册时间: 2015-11-18

11楼

发表于 2016-3-10 00:35 | 只看该作者

回复 10# pcl_test

大侠，这需要什么第三方？

Rank: 2

帖子: 77
积分: 104
技术: 0
捐助: 0
注册时间: 2015-11-18

12楼

发表于 2016-3-13 16:20 | 只看该作者

用迅雷下了网页，但是图片链接没办法对应上，如果能把网页一起下就好了，保持图片链接有效。
不过还是谢谢ivor。

codegay

少校

Rank: 6 Rank: 6

帖子: 1266
积分: 1775
技术: 162
捐助: 0
注册时间: 2015-12-12

13楼

发表于 2016-3-13 17:08 | 只看该作者

curl wget有镜像功能。

去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

CrLf

论坛巡查

Rank: 8 Rank: 8

帖子: 6388
积分: 18843
技术: 982
捐助: 100
注册时间: 2010-10-9

14楼

发表于 2016-3-14 19:39 | 只看该作者

@echo ^
    var i=10000;^
    var u='http://pmmp.cnki.net/Operation/';^
    while(i++){^
        var n=(i+'').substr(1);^
        var h=web(u+'Details.aspx?id='+n);^
        if(h.length^^^<6000)break;^
        h=h.replace(/((href^^^|src)=\u0022)(?!http:)/ig,'$1'+u);^
        iconv.saveText(h,n+'.html','utf-8');^
    }^
 | mshta http://bathome.net/s/hta/ eval(WSH.StdIn.ReadAll())
复制代码

1 评分人数

happy886rr: 转义换行符，学到了技术 + 1

链接：在线第三方命令行工具下载 bat、vbs、js 原生混编

Rank: 2

帖子: 77
积分: 104
技术: 0
捐助: 0
注册时间: 2015-11-18

15楼

发表于 2016-3-15 23:34 | 只看该作者

回复 14# CrLf

大侠，这个怎么用啊，我是菜鸟