标题: [文本处理] [已解决]批处理提取多个文本中的特定字符间的段落 [打印本页]
作者: lxh623 时间: 2010-3-26 11:19 标题: [已解决]批处理提取多个文本中的特定字符间的段落
1、文件夹有多个文本mflistpic(*),想把每个文本中的<ul>到</ul>的段落提取出来,存入文本A。每个文本有三个这样的标识。
文本实际上是http源代码。
2、第一步就够了,如果能够这样就更加完美。
<LI><A title="寒地小浆果优质丰产栽培技术" href="read.aspx?ssid=12220093" target=_blank</A>
<P><A title="寒地小浆果优质丰产栽培技术" href="read.aspx?ssid=12220093" target=_blank>寒地小浆果优质丰产栽培技术</A></P></LI>
谢谢!!
作者: bat007 时间: 2010-3-26 11:36
- sed "/<ul>.*<\/ul>/!d;s/<ul><LI>/\n/g;s/<\/LI><\/ul>/\n/g;" mflistpic(1).txt >a.txt
复制代码
作者: asnahu 时间: 2010-3-26 12:24
- sed ":a N; s/\n\|\t//g; ta" test.txt | sed "s/<ul>\|<\/ul>/\n&\n/g;" | sed "/<LI><A /!d" | sed "s/<P>/\n&/g"
复制代码
作者: lxh623 时间: 2010-3-27 11:21
真心地感谢二位帮助!
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |