标题:
[文本处理]
抽取网页源代码中的文本内容
[打印本页]
作者:
locoman
时间:
2021-11-9 21:28
标题:
抽取网页源代码中的文本内容
平时浏览网页时,可以用右键“查看网页源代码”,保存为一个文本文件。
需求:
将这个网页源代码文件中所有的HTML代码全部清除,只保留其中的真正的内容文本,最好能保持内容的原排版格式。
谢谢大家一起分析研究和帮助指导!!
作者:
Batcher
时间:
2021-11-9 21:58
回复
1#
locoman
试试这个命令行工具:HtoX32c
http://bbs.bathome.net/thread-1974-1-1.html
欢迎光临 批处理之家 (http://www.bathome.net/)
Powered by Discuz! 7.2