Board logo

标题: [文本处理] [已解决]批处理提取多个文本中的特定字符间的段落 [打印本页]

作者: lxh623    时间: 2010-3-26 11:19     标题: [已解决]批处理提取多个文本中的特定字符间的段落

1、文件夹有多个文本mflistpic(*),想把每个文本中的<ul>到</ul>的段落提取出来,存入文本A。每个文本有三个这样的标识。
文本实际上是http源代码。

2、第一步就够了,如果能够这样就更加完美。

<LI><A title="寒地小浆果优质丰产栽培技术" href="read.aspx?ssid=12220093" target=_blank</A>
<P><A title="寒地小浆果优质丰产栽培技术" href="read.aspx?ssid=12220093" target=_blank>寒地小浆果优质丰产栽培技术</A></P></LI>

谢谢!!
作者: bat007    时间: 2010-3-26 11:36

  1. sed "/<ul>.*<\/ul>/!d;s/<ul><LI>/\n/g;s/<\/LI><\/ul>/\n/g;" mflistpic(1).txt >a.txt
复制代码

作者: asnahu    时间: 2010-3-26 12:24

  1. sed ":a N; s/\n\|\t//g;  ta" test.txt | sed "s/<ul>\|<\/ul>/\n&\n/g;" | sed "/<LI><A /!d" | sed "s/<P>/\n&/g"
复制代码

作者: lxh623    时间: 2010-3-27 11:21

真心地感谢二位帮助!




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2