[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[其他] 批处理采集网站的文章+作者

我想采集http://www.juzimi.com/  这个网站的文章+作者。
里面的文章其实就是一句话。
我用火车头采集了,但是效果不理想。 很多页面采集不到。

网站的url规则为http://www.juzimi.com/ju/*****     (http://www.juzimi.com/ju/1399  、http://www.juzimi.com/ju/11  等等)但是里面有很多404页面,这个需要判断下。
如果不是404就可以采集了。

采集的时候能设置页数范围(比如说我想采集200页-1200页的内容)

采集回来所有文章+作者都整理到 一行。 txt输出。

说实话 你这个任务我是完成不了,但并不是没有方法,推荐两个帖子
只要下载完这网站的网页,按以下步骤顺序搞定
  1. htox32c /IP /O0 /U1+4 *.html
复制代码
这句代码是html转txt的,来源http://www.bathome.net/thread-7166-1-1.html 涉及的软件也在这里下载

http://www.bathome.net/thread-29885-1-2.html    这个是提取内容的

http://bathome.l3.wuyou.com/thread-29835-1-1.html   这个是合并的

现在返回到开始,下载网页用  网站整站下载器 等一些软件。只要把几个bat组合好,过程就简化成,下载和转换。
目的,学习批处理

TOP

本帖最后由 apang 于 2014-5-8 21:15 编辑
  1. Dim xml, fso, i, x, str
  2. Set xml = CreateObject("Microsoft.XMLHTTP")
  3. Set fso = CreateObject("Scripting.Filesystemobject")
  4. For i = 1390 to 1399
  5.     xml.Open "Get", "http://www.juzimi.com/ju/" & i, false
  6.     xml.send()
  7.     x = GetText(xml.responseBody)
  8.     If x <> "" Then str = str & x & vbCrLf
  9. Next
  10. fso.CreateTextFile("Result.txt", true).Write str
  11. Set xml = Nothing : Set fso = Nothing
  12. MsgBox "OK"
  13. Function GetText(s)
  14.     Dim ado
  15.     Set ado = CreateObject("ADODB.Stream")
  16.     ado.Mode = 3
  17.     ado.Type = 1
  18.     ado.Open()
  19.     ado.Write s
  20.     ado.Position = 0
  21.     ado.Type = 2
  22.     ado.Charset = "utf-8"
  23.     GetText = RegEx(ado.ReadText)
  24.     Set ado = Nothing
  25. End Function
  26. Function RegEx(s)
  27.     Dim re, m
  28.     Set re = New RegExp
  29.     re.Pattern = "xqaddqrcode\('(.+?)(《[^《]+)?',"
  30.     re.IgnoreCase = true
  31.     For Each m in re.Execute(s)
  32.         RegEx = m.SubMatches(0)
  33.     Next
  34.     Set re = Nothing
  35. End Function
复制代码
1

评分人数

TOP

只有膜拜了 楼上
目的,学习批处理

TOP

回复 3# apang

这个没有输出啊。

TOP

回复 5# kabamei


    好吧,改一改有输出了,去掉了书名号后面的东东

TOP

返回列表