Rank: 6 Rank: 6

帖子: 822
积分: 1621
技术: 52
捐助: 20
注册时间: 2008-11-3

1楼 跳转到 » 倒序看帖

字体大小: tT

发表于 2014-6-29 00:02 | 只看该作者

[文本处理] [已解决]怎么用批处理提取网页的全部链接

本帖最后由 hlzj88 于 2014-6-29 17:22 编辑

最近在用批处理做小说下载整合bat，一般网页的提取已经解决，因为他们是一行一个链接。但想具有更好的提取整理功能，遇到类似这个地址的，不知道怎么提取了。
http://www.abcsee.net/book/27/27026/ 因为这个的每行都有几个链接。希望能得到帮助。同时也希望能兼容每行一个链接的网页地址。http://www.9laidu.com/0/278/index.html
要求是提取的网页链接能以每行
开篇（一）|http://www.abcsee.net/book/27/27026/6717602.html或开篇（一）|6717602.html
这样的形式保存。

1 评分人数

Batcher: 感谢给帖子标题标注[已解决]字样PB + 2

目的，学习批处理

CrLf

论坛巡查

Rank: 8 Rank: 8

帖子: 6388
积分: 18843
技术: 982
捐助: 100
注册时间: 2010-10-9

2楼

发表于 2014-6-29 01:06 | 只看该作者

一万多字的行无法直接处理，要么借助 js/vbs，要么用第三方，要么用 sep/p 拼接

链接：在线第三方命令行工具下载 bat、vbs、js 原生混编

TOP

CrLf

论坛巡查

Rank: 8 Rank: 8

帖子: 6388
积分: 18843
技术: 982
捐助: 100
注册时间: 2010-10-9

3楼

发表于 2014-6-29 01:16 | 只看该作者

sed "/^<dd>/!d;s/</\n&/g" "妖瞳公主 最新章节 无弹窗广告 - 北辰文学网.htm"|sed "/^<a/!d;s/.*\x22\(.*\)\x22>/\1|/g"
复制代码

链接：在线第三方命令行工具下载 bat、vbs、js 原生混编

TOP

hlzj88

少校

Rank: 6 Rank: 6

帖子: 822
积分: 1621
技术: 52
捐助: 20
注册时间: 2008-11-3

4楼

发表于 2014-6-29 17:21 | 只看该作者

回复 3# CrLf

谢谢，sed尝试了，版本不对，用htox32c 后每行只有4个链接，自己解决了。

目的，学习批处理

TOP

Batcher

管理员

Rank: 12

帖子: 14910
积分: 46110
技术: 855
捐助: 745
注册时间: 2008-6-9

5楼

发表于 2014-6-30 21:50 | 只看该作者

回复 4# hlzj88

把你的代码发出来给大家分享一下吧

另外，可以试试这个sed版本：
http://pan.baidu.com/s/1pJkDALt

我帮忙写的代码不需要付钱。如果一定要给，请在微信群或QQ群发给大家吧。
【微信公众号、微信群、QQ群】http://bbs.bathome.net/thread-3473-1-1.html
【支持批处理之家，加入VIP会员！】http://bbs.bathome.net/thread-67716-1-1.html

TOP

terse

中将

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

6楼

发表于 2014-7-1 11:19 | 只看该作者

发给BAT+JS 仅测试一楼数据

@if(0)==(0) echo off
cscript -nologo -e:jscript %0 <a.htm
pause&exit
@end
var re = /<a href="(\d+\.html)".*?>(.+?)<\/a>/ig;
var rs = WScript.StdIn.ReadAll().match(re);
var length = rs.length;
for (i=0; i<length; i++) {
     WScript.Echo(rs[i].replace(re,'$2 | $1'));
}
复制代码

TOP

hlzj88

少校

Rank: 6 Rank: 6

帖子: 822
积分: 1621
技术: 52
捐助: 20
注册时间: 2008-11-3

7楼

发表于 2014-7-1 19:55 | 只看该作者

回复 5# Batcher
关于整理后链接的提取，代码我已经发这个地址。不多占论坛空间。
http://www.bathome.net/thread-30798-1-1.html

目的，学习批处理

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] [已解决]怎么用批处理提取网页的全部链接

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]