Rank: 1

帖子: 21
积分: 50
技术: 0
捐助: 0
注册时间: 2010-8-30

1楼 跳转到 » 倒序看帖

字体大小: tT

发表于 2014-4-30 19:30 | 只看该作者

[其他] 批处理采集网站的文章+作者

我想采集http://www.juzimi.com/ 这个网站的文章+作者。
里面的文章其实就是一句话。
我用火车头采集了，但是效果不理想。很多页面采集不到。

网站的url规则为http://www.juzimi.com/ju/***** （http://www.juzimi.com/ju/1399 、http://www.juzimi.com/ju/11 等等）但是里面有很多404页面，这个需要判断下。
如果不是404就可以采集了。

采集的时候能设置页数范围（比如说我想采集200页-1200页的内容）

采集回来所有文章+作者都整理到一行。 txt输出。

hlzj88

少校

Rank: 6 Rank: 6

帖子: 827
积分: 1630
技术: 54
捐助: 20
注册时间: 2008-11-3

2楼

发表于 2014-4-30 21:23 | 只看该作者

说实话你这个任务我是完成不了，但并不是没有方法，推荐两个帖子
只要下载完这网站的网页，按以下步骤顺序搞定

htox32c /IP /O0 /U1+4 *.html
复制代码

这句代码是html转txt的，来源http://www.bathome.net/thread-7166-1-1.html 涉及的软件也在这里下载

http://www.bathome.net/thread-29885-1-2.html 这个是提取内容的

http://bathome.l3.wuyou.com/thread-29835-1-1.html 这个是合并的

现在返回到开始，下载网页用网站整站下载器等一些软件。只要把几个bat组合好，过程就简化成，下载和转换。

目的，学习批处理

TOP

apang

上将

Rank: 8 Rank: 8

帖子: 2085
积分: 14204
技术: 665
捐助: 0
注册时间: 2011-11-27

3楼

发表于 2014-4-30 21:49 | 只看该作者

本帖最后由 apang 于 2014-5-8 21:15 编辑

Dim xml, fso, i, x, str
Set xml = CreateObject("Microsoft.XMLHTTP")
Set fso = CreateObject("Scripting.Filesystemobject")
For i = 1390 to 1399
    xml.Open "Get", "http://www.juzimi.com/ju/" & i, false
    xml.send()
    x = GetText(xml.responseBody)
    If x <> "" Then str = str & x & vbCrLf
Next
fso.CreateTextFile("Result.txt", true).Write str
Set xml = Nothing : Set fso = Nothing

MsgBox "OK"

Function GetText(s)
    Dim ado
    Set ado = CreateObject("ADODB.Stream")
    ado.Mode = 3
    ado.Type = 1
    ado.Open()
    ado.Write s
    ado.Position = 0 
    ado.Type = 2 
    ado.Charset = "utf-8"
    GetText = RegEx(ado.ReadText)
    Set ado = Nothing
End Function

Function RegEx(s)
    Dim re, m
    Set re = New RegExp
    re.Pattern = "xqaddqrcode\('(.+?)(《[^《]+)?',"
    re.IgnoreCase = true
    For Each m in re.Execute(s)
        RegEx = m.SubMatches(0)
    Next
    Set re = Nothing
End Function
复制代码

1 评分人数

zhanglei1371: 很强大技术 + 1

TOP

hlzj88

少校

Rank: 6 Rank: 6

帖子: 827
积分: 1630
技术: 54
捐助: 20
注册时间: 2008-11-3

4楼

发表于 2014-4-30 21:53 | 只看该作者

只有膜拜了楼上

目的，学习批处理

TOP

kabamei

上等兵

Rank: 1

帖子: 21
积分: 50
技术: 0
捐助: 0
注册时间: 2010-8-30

5楼

发表于 2014-5-7 23:40 | 只看该作者

回复 3# apang

这个没有输出啊。

TOP

apang

上将

Rank: 8 Rank: 8

帖子: 2085
积分: 14204
技术: 665
捐助: 0
注册时间: 2011-11-27

6楼

发表于 2014-5-8 21:18 | 只看该作者

回复 5# kabamei

好吧，改一改有输出了，去掉了书名号后面的东东

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[其他] 批处理采集网站的文章+作者

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]