Board logo

标题: [文本处理] 批处理采集51voa美国之音网站内容(curl、htox32c) [打印本页]

作者: Vast    时间: 2011-4-8 11:12     标题: 批处理采集51voa美国之音网站内容(curl、htox32c)

本帖最后由 pcl_test 于 2016-11-9 20:54 编辑

http://www.51voa.com/Go_English_1.html

将这个网站下级链接采集成文本文件。

文本内容包含标题,结尾至“这次的美语三级跳就播送到这里。”

如果mp3音频也一并采集下来,最好。

怎么来处理呢?谢谢!
作者: namejm    时间: 2011-4-8 16:50

本帖最后由 namejm 于 2011-4-9 01:49 编辑

基本思路:curl下载网页、htox32c转换网页为文本、wfr转换utf-8编码为ANSI
代码及教程在此:下载51VOA网站上《美语三级跳 Go English》中的文本及音频(http://bbs.bathome.net/viewthread.php?tid=11817

顺便提醒楼主一下:“网站文本采集”这样的标题过于宽泛,属“标题模糊”的违规情形,请更换一个更加具体的标题,含有更多或更精准的关键词,使得后来的人能通过相关的关键词迅速找到本帖。




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2