标题: [文本处理] [已解决]批处理怎样提取网页中的指定链接地址? [打印本页]
作者: web 时间: 2013-5-16 02:07 标题: [已解决]批处理怎样提取网页中的指定链接地址?
本帖最后由 pcl_test 于 2016-7-11 10:35 编辑
src="/upload/portal/WP_btn201208210254434666201304031950224696.gif" //p/aspan id=bnote style="color:#696969;"div class="hide_down"a href="javascript:downphoneclient('http://122.224.214.248/enterprise/ECP_WP7.xap')"Windows Phone7版br/i(V1.6)/i/aa href="javascript:downphoneclient('http://122.224.214.248/enterprise/ECP_WP8.xap')"Windows Phone8版br/i(V2.0.2.0)/i/a/div i class="version_down" /ibr/ 操作系统:windows phone7/span/divdiv class="downsysten_contentnew "pimg border="0" alt="" width="156" height="80" src="/upload/portal/p1201208271913085436.gif" //pbra href="javascript:downphoneclient('http://update.ecpchina.com/download/autoupdate/158_1.0.2.0_1exe/yiliao1.0.2.0.exe')"pimg alt="" width="156" height="65" src="/upload/portal/p4201301291238282437201304031954406182.jpg" //p/aspan id=bnote style="color:#696969;" i class="version_down"版本号:1.0.2.0/ibr/操作系统:windows 2000以上/span/div
以上为文本内容 或者直接获取网页源代码 http://liao.189.cn/page/app/down.jsp 并提取链接地址
怎么提取其中的 链接 http://update.ecpchina.com/downl ... e/yiliao1.0.2.0.exe
由于地址中间会有点变化 要求以 查找开头 和 结尾之间的字符 得到这个地址 或者其他好的办法
由于行字符太长 不能执行
作者: BAT-VBS 时间: 2013-5-16 08:26
- sed "/http:/!d; s/.*\(http:[^']*\.exe\).*/\1/" a.txt
复制代码
作者: wjx515 时间: 2013-5-16 13:22
- sed "s/\'/\r\n/g" a.txt |sed "/^http.*exe/!d"
复制代码
作者: web 时间: 2013-5-16 18:00
回复 3# wjx515
问题可以解决了 但是处理下载的网页的话做不到 楼上的可以 谢谢了
作者: web 时间: 2013-5-16 18:02
本帖最后由 web 于 2013-5-16 18:20 编辑
回复 2# BAT-VBS
Invalid keyboard code specified
如果 保存 这一句怎么不输出啊
同样网页的会得到 多余的内容 不过倒是可以在处理
作者: Batcher 时间: 2013-5-16 18:13
回复 5# web
你用的哪个版本?试试4.2.2
http://www.bathome.net/thread-16975-1-1.html
作者: web 时间: 2013-5-16 18:26
回复 6# Batcher
[new]sed-4.2.1-bin.zip 得不到结果
sed4.2.1.zip 这个可以
但会有 Invalid keyboard code specified
处理下载的网页jsp源码会得到 多余的内容 http://liao.189.cn/page/app/down.jsp
Invalid keyboard code specified
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<li><a class='li_a2' href="http://liao.189.cn/page/app/index.html">首页</a></li><li><a class='li_a2' href="http://liao.189.cn/reg/">注册</a></li><li><a class='li_a1' style="background-image:url(../../images/menu_on1.gif);" href="http://liao.189.cn/page/app/down.jsp">下载</a></li><li><a class='li_a2' href="http://liao.189.cn/page/app/activity1.html">活动</a></li><li><a class='li_a2' href="http://liao.189.cn/reg/service.html">账号服务</a></li><li><a class='li_a2' href="http://liao.189.cn/nobbs.html">论坛</a></li><li><a class='li_a2' href="http://liao.189.cn/page/app/help.html">帮助</a></li>
http://update.ecpchina.com/downl ... e/yiliao1.0.2.0.exe
<a href="http://e.weibo.com/liao189" style=""><img src="../../images/sina_logo.gif" align="middle" /></a>
<a href="http://t.qq.com/ecplive" style="margin-left: 20px;"><img src="../../images/tencent_logo.gif" align="middle" /> </a>
var basepath = "http://liao.189.cn:80/";
作者: Batcher 时间: 2013-5-16 18:39
回复 7# web
4.2.2结果如何?
作者: web 时间: 2013-5-16 18:56
本帖最后由 web 于 2013-5-16 19:06 编辑
回复 8# Batcher
没有下载到 Sed-4.2.2-bin.zip: http://code.google.com/p/gnu-on-windows/downloads/list
暂时下不到
经过反复 测试 这句没有了 Invalid keyboard code specified
作者: Batcher 时间: 2013-5-16 20:05
回复 9# web
http://pan.baidu.com/share/link?shareid=452449&uk=1124163200
作者: web 时间: 2013-5-19 11:13
回复 10# Batcher
这几天有下载了几次 结果我这里还是不能下载到 不过问题是解决了 谢谢
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |