【已解决】批处理如何批量下载网页链接中的pdf文件？ - BAT求助&讨论 - 批处理之家 BAT,CMD,批处理,PowerShell,VBS,DOS

返回列表发帖

codegay

少校

Rank: 6 Rank: 6

帖子: 1266
积分: 1775
技术: 162
捐助: 0
注册时间: 2015-12-12

16楼 跳转到 »

发表于 2018-2-3 19:59 | 只看该作者

回复 15# 775405984

跟性别与专业无关。这个有个医学生的笔记，好像是个妹子。好多技术类的网站都转载过她的学习笔记。
这个学习能力，笔记能力，组织能力真的是让我惊叹。

https://woaielf.github.io/2017/06/13/python3-all/

去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

TOP

775405984

列兵

Rank: 1

帖子: 6
积分: 17
技术: 0
捐助: 0
注册时间: 2017-11-23

17楼

发表于 2018-2-3 20:05 | 只看该作者

回复 16# codegay

授人以鱼不如授人以渔，道理我都懂。。。

TOP

ivor

上校

Rank: 6 Rank: 6

帖子: 979
积分: 3381
技术: 172
捐助: 40
注册时间: 2012-1-7

18楼

发表于 2018-2-3 22:39 | 只看该作者

回复 17# 775405984

https://pan.baidu.com/s/1dGQORIh

#&cls&@powershell "Invoke-Expression ([Io.File]::ReadAllText('%~0',[Text.Encoding]::UTF8))" &pause&exit

TOP

523066680

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

19楼

发表于 2018-2-4 21:26 | 只看该作者

四线程+队列，Mojo 本身支持多线程，不过还没学会

=info
    4线程+队列
    523066680@163.com
=cut

use Modern::Perl;
use Encode;
use threads;
use threads::shared;
use Thread::Queue;
use File::Basename;
use URI::Escape;
use Mojo::UserAgent;
STDOUT->autoflush(1);

my @ths;
my $que = Thread::Queue->new();    # A new empty queue
my $link = "http://pmmp.cnki.net/OperatingDiscipline/Details.aspx?id=";
my @mission = map { sprintf "%s%04d", $link, $_ } (1 .. 2150);

#创建线程
grep { push @ths, threads->create( \&thread_func, $_ ) } ( 0..3 );

$que->enqueue( @mission );
$que->end();
grep { $_->join() } @ths;

exit;

sub thread_func
{
    my ( $id ) = shift;
    my ($link, $file, $res, $dom);

    my $ua = Mojo::UserAgent->new();
    $ua = $ua->max_redirects(5);

    while (defined(my $link = $que->dequeue())) 
    {
        $file = basename( $link );
        $res = $ua->get( $link )->result;
        $res->body =~/(http.*?.pdf)/;
        $link = encode('gbk', decode('utf8', uri_unescape($1)));
        say $link;
    }
}
复制代码

结果见附件

FuniCode 编程论坛

TOP

775405984

列兵

Rank: 1

帖子: 6
积分: 17
技术: 0
捐助: 0
注册时间: 2017-11-23

20楼

发表于 2018-2-9 21:53 | 只看该作者

回复 18# ivor

谢谢~~~~

TOP

ivor

上校

Rank: 6 Rank: 6

帖子: 979
积分: 3381
技术: 172
捐助: 40
注册时间: 2012-1-7

21楼

发表于 2018-2-19 22:10 | 只看该作者

本帖最后由 ivor 于 2018-2-20 10:19 编辑

换了个思路，采用list弹出元素的方式，发现还是很方便的哈，效率主要还是看服务器处理的速度。
10个线程够这下速度够快了吧。。。

# coding:utf-8
# 10线程
#

import bs4
import urllib.request as url
import threading
import time


s = time.time()
pdfUrl = []
numList = ['{:0>4}'.format(i) for i in range(1, 2150)]
def getPdfUrl(threadKey = 'default'):
    web_site = r'http://pmmp.cnki.net/OperatingDiscipline/Details.aspx?id=%s'
    while len(numList):
        num = numList.pop()
        try:
            req = url.urlopen(web_site % num)
            soup = bs4.BeautifulSoup(req,'html.parser')
            for i in soup.find_all('a'):
                if i.string == '全文下载':
                    pdf = url.unquote(i.get('href'))
                    pdfUrl.append(pdf + '\n')
                    print("Thread[%s]: %s" % (threadKey,pdf))
                    break
            
        except:
            print("服务器错误！   当前id=%s" % num)
            
    print("Thread[%s]: End!!" % threadKey)
    return 

def writeList(pdfLink):
    with open("list.txt", "w") as file:
        file.writelines(pdfLink)

#线程实体list
t = ['t1','t2','t3','t4','t5','t6','t7','t8','t9','t10']
for i in t:
    i = threading.Thread(target=getPdfUrl,args=(i,))
    i.start()

while True:
    time.sleep(1)
    if threading.active_count() == 1:
        writeList(pdfUrl)
        print("\n\n耗时: %f 秒" % (time.time() - s))
        break
复制代码

#&cls&@powershell "Invoke-Expression ([Io.File]::ReadAllText('%~0',[Text.Encoding]::UTF8))" &pause&exit

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]