[其他] 如何读取网页内容下载子网页内的文件？

本帖最后由 xp3000 于 2020-5-26 21:57 编辑

类型如下，网页地址：
http://www.ting89.com/books/5868.html

里面有子网页，在下载网页里面有下载地址，
http://mp32b.ting89.com:9090/科幻有声/三体/01.mp3
有的网站是这样的
http://xxxx/xxxx/书名/这里是上传的日期每一个都不一样/数字.mp3

比如在批处理窗口输入网站回车后，
如何获取倒数第1个/前面或倒数第2个/前面作为下载目录，把mp3下载下来？

xczxczxcz

中尉

Rank: 5 Rank: 5

帖子: 709
积分: 961
技术: 83
捐助: 0
注册时间: 2012-9-14

5楼

发表于 2020-5-28 14:17 | 只看该作者

这个网站下载较慢，多数这样的网站都比较慢。
我用 PS 测试了下，连续较快下载，会被踢。
然后再测试用异步下载。发现连续 600 多篇都没踢。你可以试试把上面的脚本改成异步试试。

QQ: 己阵亡
脚本优先 [PowerShell win10]

TOP

xp3000

少尉

Rank: 5 Rank: 5

帖子: 441
积分: 618
技术: 37
捐助: 0
注册时间: 2013-4-25

4楼

发表于 2020-5-28 09:17 | 只看该作者

python3.8下载着一会儿就不动了，
估计是网站不让连续下载或下载多了，
再次打开时候连接无法回答，请问在哪里插入间隔时间？

还有如果是倒数第2个/前面作为下载目录修改哪里？

不知道是不是后台在整理，
以前看见很多：……书名/年份+月份/名称.MP3或者……年份/书名/随机数字目录/名称.MP3
现在也变得统一起来为：……书名/名称.MP3

TOP

xp3000

少尉

Rank: 5 Rank: 5

帖子: 441
积分: 618
技术: 37
捐助: 0
注册时间: 2013-4-25

3楼

发表于 2020-5-27 12:36 | 只看该作者

谢谢，一会试下.
批处理不知道为什么，好像是二次输入时候有?号老是失败

TOP

ivor

上校

Rank: 6 Rank: 6

帖子: 979
积分: 3381
技术: 172
捐助: 40
注册时间: 2012-1-7

2楼

发表于 2020-5-27 10:50 | 只看该作者

本帖最后由 ivor 于 2020-5-27 12:58 编辑

#! /usr/bin/env python3
# coding:utf-8

from bs4 import BeautifulSoup
import requests
import re
import os

site = "http://www.ting89.com/books/68.html"
domain = re.search(r'(https?)://.*?/', site).group(0)

html = requests.get(site)
soup = BeautifulSoup(html.content, "html.parser")
chapter = soup.find("div", class_="compress").findAll("a")
title = soup.find("div", class_="conlist").find('h1').text

for i in chapter:
    chapter_html = requests.get(domain + i['href']).content.decode('gbk')
    mp3_site = re.search(r'(?<=datas=\(")https?.*\.mp3', chapter_html).group(0)
    title = re.search(r'(?<=/)[\u4E00-\u9FA5_\d]*?(?=/\d)', mp3_site).group(0)
    if not os.path.exists(title):
        os.mkdir(title)
    mp3_name = re.search(r"\d+(\(完\))?\.mp3", mp3_site).group(0)
    if os.path.exists('{0}/{1}'.format(title, mp3_name)):
        print('{0}/{1} exist. pass!!!'.format(title, mp3_name))
        continue
    print('{0}/{1} is downloading.'.format(title, mp3_name))
    success = True
    while success:
        try:
            mp3 = requests.get(mp3_site).content
            success = False
        except:
            success = True
            print("网络重置，继续尝试访问。")
    with open('{0}/{1}'.format(title, mp3_name), 'wb+') as file:
        file.write(mp3)
复制代码

跳过已下载章节，运行环境：python3，不是批处理！
结果演示：

三体/001.mp3 exist. pass!!!
三体/002.mp3 exist. pass!!!
三体/003.mp3 exist. pass!!!
三体/004.mp3 is downloading.
......

1 评分人数

xp3000: 感谢分享技术 + 1

#&cls&@powershell "Invoke-Expression ([Io.File]::ReadAllText('%~0',[Text.Encoding]::UTF8))" &pause&exit

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[其他] 如何读取网页内容下载子网页内的文件？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]