Board logo

标题: [文本处理] 批处理如何获取网页源码中的 <a>标签中的内容? [打印本页]

作者: msdlya    时间: 2013-8-19 11:24     标题: 批处理如何获取网页源码中的 <a>标签中的内容?

求助获 如何取网页源码。中的 <a>标签中的内容。。
这样的 TXT 获取       代码都在一行里面!
求 正则表达式 查找。。。。

标签头
http://g6612843.blog.163.com/blog/static/45846717201151194911983

<span class="line">-</span><a href="http://g6612843.blog.163.com/blog/static/45846717201151194911983" >标签头</a></div><div class="sp"><span class="preview" id="pws_0_1"><span class="iPre"><span class="iPreBox" style="height:74px;"><em class="iPreArr"></em></span><span class="line">-</span><a href="http://g6612843.blog.163.com/blog/static/45846717201151194911983" >标签头</a></div><div class="sp"><span class="preview" id="pws_0_1"><span class="iPre"><span class="iPreBox" style="height:74px;"><em class="iPreArr"></em></span><span class="line">-</span><a href="http://g6612843.blog.163.com/blog/static/45846717201151194911983" >标签头</a></div><div class="sp"><span class="preview" id="pws_0_1"><span class="iPre"><span class="iPreBox" style="height:74px;"><em class="iPreArr"></em></span>
作者: terse    时间: 2013-8-19 16:35

VBS 一个  这样可以吗
  1. Dim ie
  2. Set ie = CreateObject("InternetExplorer.Application")
  3. Set FSO=CreateObject("Scripting.FilesystemObject")
  4. file = "c:\a.html"
  5. ie.NaviGate file
  6. for i = 0 to ie.document.links.length-1
  7. str = str & ie.document.links(i).outerText & vbCrLf & ie.document.links(i).href & vbCrLf
  8. next
  9. ie.quit
  10. Set ie = Nothing
  11. FSO.OpenTextFile("html.txt",2,True).WriteLine str
复制代码





欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2