Board logo

标题: [文本处理] [已解决]批处理怎样提取网页中的指定链接地址? [打印本页]

作者: web    时间: 2013-5-16 02:07     标题: [已解决]批处理怎样提取网页中的指定链接地址?

本帖最后由 pcl_test 于 2016-7-11 10:35 编辑

src="/upload/portal/WP_btn201208210254434666201304031950224696.gif" //p/aspan id=bnote style="color:#696969;"div class="hide_down"a href="javascript:downphoneclient('http://122.224.214.248/enterprise/ECP_WP7.xap')"Windows Phone7版br/i(V1.6)/i/aa href="javascript:downphoneclient('http://122.224.214.248/enterprise/ECP_WP8.xap')"Windows Phone8版br/i(V2.0.2.0)/i/a/div  i class="version_down" /ibr/ 操作系统:windows phone7/span/divdiv class="downsysten_contentnew "pimg border="0" alt="" width="156" height="80" src="/upload/portal/p1201208271913085436.gif" //pbra href="javascript:downphoneclient('http://update.ecpchina.com/download/autoupdate/158_1.0.2.0_1exe/yiliao1.0.2.0.exe')"pimg alt="" width="156" height="65" src="/upload/portal/p4201301291238282437201304031954406182.jpg" //p/aspan id=bnote style="color:#696969;" i class="version_down"版本号:1.0.2.0/ibr/操作系统:windows 2000以上/span/div


以上为文本内容    或者直接获取网页源代码  http://liao.189.cn/page/app/down.jsp 并提取链接地址
怎么提取其中的  链接 http://update.ecpchina.com/downl ... e/yiliao1.0.2.0.exe
由于地址中间会有点变化 要求以 查找开头 和 结尾之间的字符 得到这个地址    或者其他好的办法
由于行字符太长 不能执行
作者: BAT-VBS    时间: 2013-5-16 08:26

  1. sed "/http:/!d; s/.*\(http:[^']*\.exe\).*/\1/" a.txt
复制代码

作者: wjx515    时间: 2013-5-16 13:22

  1. sed "s/\'/\r\n/g" a.txt |sed "/^http.*exe/!d"
复制代码

作者: web    时间: 2013-5-16 18:00

回复 3# wjx515


    问题可以解决了 但是处理下载的网页的话做不到  楼上的可以  谢谢了
作者: web    时间: 2013-5-16 18:02

本帖最后由 web 于 2013-5-16 18:20 编辑

回复 2# BAT-VBS


    Invalid keyboard code specified
如果 保存 这一句怎么不输出啊

同样网页的会得到 多余的内容 不过倒是可以在处理
作者: Batcher    时间: 2013-5-16 18:13

回复 5# web


你用的哪个版本?试试4.2.2
http://www.bathome.net/thread-16975-1-1.html
作者: web    时间: 2013-5-16 18:26

回复 6# Batcher


    [new]sed-4.2.1-bin.zip    得不到结果

sed4.2.1.zip  这个可以
但会有   Invalid keyboard code specified


处理下载的网页jsp源码会得到 多余的内容      http://liao.189.cn/page/app/down.jsp
Invalid keyboard code specified
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
                                        <li><a class='li_a2' href="http://liao.189.cn/page/app/index.html">首页</a></li><li><a class='li_a2' href="http://liao.189.cn/reg/">注册</a></li><li><a class='li_a1' style="background-image:url(../../images/menu_on1.gif);" href="http://liao.189.cn/page/app/down.jsp">下载</a></li><li><a class='li_a2' href="http://liao.189.cn/page/app/activity1.html">活动</a></li><li><a class='li_a2' href="http://liao.189.cn/reg/service.html">账号服务</a></li><li><a class='li_a2' href="http://liao.189.cn/nobbs.html">论坛</a></li><li><a class='li_a2' href="http://liao.189.cn/page/app/help.html">帮助</a></li>
http://update.ecpchina.com/downl ... e/yiliao1.0.2.0.exe
                        <a href="http://e.weibo.com/liao189" style=""><img src="../../images/sina_logo.gif" align="middle" /></a>
                        <a href="http://t.qq.com/ecplive" style="margin-left: 20px;"><img src="../../images/tencent_logo.gif" align="middle" /> </a>
                        var basepath = "http://liao.189.cn:80/";
作者: Batcher    时间: 2013-5-16 18:39

回复 7# web


    4.2.2结果如何?
作者: web    时间: 2013-5-16 18:56

本帖最后由 web 于 2013-5-16 19:06 编辑

回复 8# Batcher


    没有下载到   Sed-4.2.2-bin.zip: http://code.google.com/p/gnu-on-windows/downloads/list
暂时下不到

经过反复 测试 这句没有了 Invalid keyboard code specified
作者: Batcher    时间: 2013-5-16 20:05

回复 9# web


http://pan.baidu.com/share/link?shareid=452449&uk=1124163200
作者: web    时间: 2013-5-19 11:13

回复 10# Batcher


    这几天有下载了几次 结果我这里还是不能下载到  不过问题是解决了 谢谢




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2