Board logo

标题: [文本处理] 【已解决】批处理如何去除html网页中的<>标签? [打印本页]

作者: sweet惜缘    时间: 2015-5-11 10:47     标题: 【已解决】批处理如何去除html网页中的<>标签?

本帖最后由 pcl_test 于 2016-11-24 08:09 编辑

<!DOCTYPE html
        PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
         "http://www.w3.org/TR/html4/loose.dtd">
<html><head><title>LinkDB Search Result: KEGG DGROUP DG00012</title>
<meta http-equiv="Content-Style-Type" content="text/css">
<meta http-equiv="Content-Script-Type" content="text/javascript">
<link type="text/css" rel="stylesheet" href="/css/gn2.css">
<style>pre{font-family:monospace}</style>
</head>
<span style="color:#36c"><b>KEGG DGROUP</b></span>

<a href="/dbget-bin/www_bget?dgG01633">DG01633</a>              CYP3A4 substrate

<span style="color:#36c"><b>ATC</b></span>

事实上,我只需要留下红色部分
希望把红色数据继续再存到DG00012.txt里,该如何实现?
作者: sweet惜缘    时间: 2015-5-11 10:49

@bailong360
作者: chromatin2    时间: 2015-5-11 11:15

这个,用正则好。
作者: gawk    时间: 2015-5-11 11:25

请描述一下规律是什么,比如为何不留下 ATC 呢?
作者: fcxk    时间: 2015-5-11 13:10

好难折分,提了二组后面的,一组的又丢失
作者: sweet惜缘    时间: 2015-5-11 15:31

回复 4# gawk


    ATC提出也可,我其实只想要红色信息部分,要是不容易,退而求其次,只余下除<>外内容也可,感谢!
作者: sweet惜缘    时间: 2015-5-11 15:31

回复 5# fcxk

ATC提出也可,我其实只想要红色信息部分,要是不容易,退而求其次,只余下除<>外内容也可,感谢!
作者: sweet惜缘    时间: 2015-5-11 15:32

回复 3# chromatin2

是~但是这个字符串太大,正则不好用
作者: gawk    时间: 2015-5-11 16:53

  1. HtoX32c.exe 1.txt > 2.txt
复制代码

作者: sweet惜缘    时间: 2015-5-11 21:16

回复 9# gawk

用了之后没反应。。。。。
作者: sweet惜缘    时间: 2015-5-11 21:17

:'(忧愁。。。
作者: gawk    时间: 2015-5-11 21:21

回复 10# sweet惜缘


    我这里测试没问题,你的HtoX32c.exe从哪里下载的?
作者: pcl_test    时间: 2015-5-11 21:23

本帖最后由 pcl_test 于 2015-5-11 22:03 编辑
  1. @if(0)==(0) echo off
  2. ::如果非html格式文件,自行修改代码中的文件后缀名;修改原文件,测试前先备份好原文件
  3. for %%a in (*.html) do (
  4. CScript -NoLogo -E:JScript "%~f0" <"%%a" >"tmp_%%a"
  5. move "tmp_%%a" "%%a"
  6. )
  7. pause & exit
  8. @end
  9. var s = WScript.StdIn.ReadAll().replace(/<[^>]+>/gm,"");
  10. WSH.echo(s);
复制代码

作者: bailong360    时间: 2015-5-11 22:45

多来几个样本吧,找到规律的话用grep提取也不失为一种办法
作者: sweet惜缘    时间: 2015-5-12 11:06

回复 14# bailong360

多谢~楼上的方法就行拉~
作者: sweet惜缘    时间: 2015-5-12 11:06

回复 13# pcl_test

初步达到了我的目的~感谢!




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2