标题: [文本处理] 【已解决】求助,bat删除TXT中指定的html标签 [打印本页]
作者: cspxvip 时间: 2022-6-17 11:13 标题: 【已解决】求助,bat删除TXT中指定的html标签
本帖最后由 cspxvip 于 2022-6-17 14:20 编辑
采集程序采集了很多txt内容,内容举例:
<h2>还贷中的房子能出售吗</h2>
<p>商品房现售,应当符合以下条件:</p>
<p><img src='https://xxxxxxxx.com/it/u=1239053' alt='正在还贷的房子证明出售'></p>
<h2>出售未还完贷款的房屋需要什么手续?</h2>
我想实现删除那个图片链接:(<p><img src='https://xxxxxxxx.com/it/u=1239053' alt='正在还贷的房子证明出售'></p>)
目的是删除内容中的图片,求大佬帮帮忙,谢谢
作者: flashercs 时间: 2022-6-17 13:04
- @echo off
- cd /d "%~dp0"
- @REM html.txt是 utf8编码
- powershell -c "$enc=new-object system.text.utf8encoding $false;gci .\*.txt|foreach-object{[io.file]::writeAllText($_.FullName,([io.file]::ReadAllText($_.FullName) -replace '<p><img[^>]*></p>'),$enc)}"
- pause
复制代码
作者: cspxvip 时间: 2022-6-17 14:16
回复 2# flashercs
谢谢大佬,亲测没问题!!!
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |