标题: [文本处理] 【已解决】批处理如何去除html网页中的<>标签? [打印本页]
作者: sweet惜缘 时间: 2015-5-11 10:47 标题: 【已解决】批处理如何去除html网页中的<>标签?
本帖最后由 pcl_test 于 2016-11-24 08:09 编辑
<!DOCTYPE html
PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
"http://www.w3.org/TR/html4/loose.dtd">
<html><head><title>LinkDB Search Result: KEGG DGROUP DG00012</title>
<meta http-equiv="Content-Style-Type" content="text/css">
<meta http-equiv="Content-Script-Type" content="text/javascript">
<link type="text/css" rel="stylesheet" href="/css/gn2.css">
<style>pre{font-family:monospace}</style>
</head>
<span style="color:#36c"><b>KEGG DGROUP</b></span>
<a href="/dbget-bin/www_bget?dgG01633">DG01633</a> CYP3A4 substrate
<span style="color:#36c"><b>ATC</b></span>
事实上,我只需要留下红色部分
希望把红色数据继续再存到DG00012.txt里,该如何实现?
作者: sweet惜缘 时间: 2015-5-11 10:49
@bailong360
作者: chromatin2 时间: 2015-5-11 11:15
这个,用正则好。
作者: gawk 时间: 2015-5-11 11:25
请描述一下规律是什么,比如为何不留下 ATC 呢?
作者: fcxk 时间: 2015-5-11 13:10
好难折分,提了二组后面的,一组的又丢失
作者: sweet惜缘 时间: 2015-5-11 15:31
回复 4# gawk
ATC提出也可,我其实只想要红色信息部分,要是不容易,退而求其次,只余下除<>外内容也可,感谢!
作者: sweet惜缘 时间: 2015-5-11 15:31
回复 5# fcxk 、
ATC提出也可,我其实只想要红色信息部分,要是不容易,退而求其次,只余下除<>外内容也可,感谢!
作者: sweet惜缘 时间: 2015-5-11 15:32
回复 3# chromatin2
是~但是这个字符串太大,正则不好用
作者: gawk 时间: 2015-5-11 16:53
- HtoX32c.exe 1.txt > 2.txt
复制代码
作者: sweet惜缘 时间: 2015-5-11 21:16
回复 9# gawk
用了之后没反应。。。。。
作者: sweet惜缘 时间: 2015-5-11 21:17
:'(忧愁。。。
作者: gawk 时间: 2015-5-11 21:21
回复 10# sweet惜缘
我这里测试没问题,你的HtoX32c.exe从哪里下载的?
作者: pcl_test 时间: 2015-5-11 21:23
本帖最后由 pcl_test 于 2015-5-11 22:03 编辑
- @if(0)==(0) echo off
- ::如果非html格式文件,自行修改代码中的文件后缀名;修改原文件,测试前先备份好原文件
- for %%a in (*.html) do (
- CScript -NoLogo -E:JScript "%~f0" <"%%a" >"tmp_%%a"
- move "tmp_%%a" "%%a"
- )
- pause & exit
- @end
- var s = WScript.StdIn.ReadAll().replace(/<[^>]+>/gm,"");
- WSH.echo(s);
复制代码
作者: bailong360 时间: 2015-5-11 22:45
多来几个样本吧,找到规律的话用grep提取也不失为一种办法
作者: sweet惜缘 时间: 2015-5-12 11:06
回复 14# bailong360
多谢~楼上的方法就行拉~
作者: sweet惜缘 时间: 2015-5-12 11:06
回复 13# pcl_test
初步达到了我的目的~感谢!
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |