标题: [文本处理] [已解决]批处理如何在记事本或者htm里提取文本? [打印本页]
作者: tbjx138 时间: 2015-2-8 19:23 标题: [已解决]批处理如何在记事本或者htm里提取文本?
我有n个htm网页文件,想提取出指定的文本,提取结果如下:
附上2个网页文件,请大神帮忙!!!批处理和vba都可以,谢谢!
作者: tbjx138 时间: 2015-2-9 10:12
请大神帮忙!!
作者: apang 时间: 2015-2-9 12:59
- @set @n=0;/* & echo off
- echo,BKID,书名,作者,出版日期,出版社,ISBN>1.csv
- (for %%a in (*.htm) do (
- cscript -nologo -e:jscript "%~0"<"%%a"
- ))>>1.csv
- pause & exit/b */
-
- txt = WScript.StdIn.ReadAll();
- re = />作者:[\s\S]+?word=.+?'/ig;
-
- s = "";
- while ((ar = re.exec(txt)) != null) {
- s += ar[0].match(/bkid=(\d+)/i)[1] + ","
- s += ar[0].match(/word=(.*?)'/i)[1] + ","
- s += ar[0].match(/>作者:(.+?)</)[1] + ","
- s += ar[0].match(/>出版日期:(.+?)</)[1] + ","
- s += ar[0].match(/>出版社:(.+?)</)[1] + ","
- s += ar[0].match(/>ISBN:(.+?)</i)[1] + "\r\n";
- }
- WScript.StdOut.Write(s)
复制代码
作者: tbjx138 时间: 2015-2-9 13:28
回复 3# apang
感谢大神的帮忙,已经可以提取,大神的技术太牛了!!!
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |