Board logo

标题: [文本处理] [已解决]批处理怎样从文档中提取超链接? [打印本页]

作者: fanfande    时间: 2010-9-11 18:02     标题: [已解决]批处理怎样从文档中提取超链接?

本帖最后由 fanfande 于 2011-8-30 00:51 编辑

txt文档里面N多网址原始格式如下:

<a title="百度百科" href="http://baike.baidu.com/">百度百科</a>
<a title="网址之家" href="http://www.hao123.com/">网址之家</a>
<a title="sina博客" href="http://blog.sina.com.cn/">sina博客</a>
<a title="西祠胡同" href="http://www.xici.net/">西祠胡同</a>
等等。。。

需要处理成如下格式:

百度百科,http://baike.baidu.com/,1
网址之家,http://www.hao123.com/,1
sina博客,http://blog.sina.com.cn/,1
西祠胡同,http://www.xici.net/,1

逗号是半角的

这个提问的标题实在想不出如何定一个标题,值班斑竹可以帮我想一个,谢谢!
作者: edmond    时间: 2010-9-11 18:48

  1. @echo off
  2. setlocal enabledelayedexpansion
  3. for /f "delims= tokens=1-10" %%a in (1.txt) do (
  4.         set m=%%a
  5.         set m=!m:~10!
  6.         set m=!m:"=~!
  7.         echo !m!>>tem1.txt
  8. )
  9. for /f "delims=~ tokens=1-10" %%i in (tem1.txt) do (
  10.         echo %%i,%%k,1 >>list.txt
  11. )
  12. del tem1.txt
  13. pause
复制代码
我不会用"作分隔符阿,只能多走几步了。
作者: asnahu    时间: 2010-9-11 19:24

  1. @echo off
  2. gawk "BEGIN{FS=\"\x22\";OFS=\",\"}{print $2,$4,"1"}" urfile
  3. exit
复制代码

作者: 随风    时间: 2010-9-11 20:24

  1. @echo off
  2. for /f "tokens=1,2 delims=<>" %%a in (a.txt) do (
  3.     set "str=%%a"
  4.     setlocal enabledelayedexpansion
  5.     set "str=!str:~0,-1!,1"
  6.     set "str=!str:*http:=!"
  7.     echo %%b,http:!str!
  8.     endlocal
  9. )
  10. pause
复制代码

作者: fanfande    时间: 2010-9-12 07:01

假如原始格式是这样的

百度百科==http://baike.baidu.com==可以方便提出问题回答问题的地方
网址之家==http://www.hao123.com==网民收藏最多的网址
西祠胡同==http://www.xici.net/==西祠社区,总部在南京

需要处理成如下格式:

百度百科,http://baike.baidu.com/,1
网址之家,http://www.hao123.com/,1
西祠胡同,http://www.xici.net/,1


规律是取的 ==左边的内容   ==右边的被替换成了1

谢谢2楼
作者: asnahu    时间: 2010-9-12 08:24

  1. gawk "BEGIN{FS=\"=+\";OFS=\",\";str="1"}{print $1,$2,str}" urfile
复制代码

作者: Batcher    时间: 2010-9-12 11:21     标题: 回复 5楼 的帖子

能否把问题更新到顶楼?




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2