标题: [挑战]批处理采集电视节目表 [打印本页]
作者: inittab 时间: 2010-3-1 22:02 标题: [挑战]批处理采集电视节目表
本人很喜欢用批处理收集网络上小说,自动采集电视节目表等等。但以下这个网站难度比较大。请各位大大想想办法。
采集地址:
http://www.tvsou.com/union/uni2.asp?tvid=1&channelid=3&programDT=2010-3-1
编写批处理(可以用第三方)自动生成如下格式电视节目表:- 10/03/01
- 00:57 晚间精编节目
- 01:05 晚间精编节目
- 03:05 晚间精编节目
- 05:03 早间精编节目
- 06:00 早间精编节目
- 07:00 第一时间:资讯唤醒每一天
- 09:00 交易时间:权威解读财经资讯
- 11:10 消费主张:享受优质产品和服务
- 11:50 环球财经连线
- 12:30 商道:时尚快跑
- 13:00 经济与法:一切皆有规则
- 13:30 交易时间:权威解读财经资讯
- 15:28 经济半小时:观经济大势
- 16:03 魅力世博18
- 16:08 理财在线:帮您打理口袋里的钱
- 16:33 寻宝:寻民间国宝200944
- 17:33 2010财经小辞典35
- 17:43 交易时间
- 18:15 环球财经连线
- 18:48 魅力世博19
- 18:53 理财在线:梭子蟹经纪人
- 19:18 消费主张:享受优质产品和服务
- 20:00 经济与法:一切皆有规则
- 20:30 经济信息联播:把握经济脉搏
- 21:20 经济半小时:观经济大势
- 21:55 今日观察
- 22:30 市场分析室
- 23:17 艺术品市场热点对话5
- 23:47 台北故宫13
- 10/03/02
- 00:07 今日观察
- 00:42 商道:海之链
- 01:20 晚间精编节目
- 03:20 晚间精编节目
- 05:03 早间精编节目
- 06:00 早间精编节目
- 07:00 第一时间:资讯唤醒每一天
- 09:00 交易时间:权威解读财经资讯
- 11:10 消费主张:享受优质产品和服务
- 11:50 环球财经连线
- 12:30 商道:极地求生
- 13:00 经济与法:一切皆有规则
- 13:30 交易时间:权威解读财经资讯
- 15:28 经济半小时:观经济大势
- 16:03 魅力世博14
- 16:08 理财在线:年入百万靠蝗虫
- 16:33 快乐主妇
- 17:33 2010财经小辞典31
- 17:43 交易时间
- 18:15 环球财经连线
- 18:48 魅力世博15
- 18:53 理财在线:当鸟养的鸡
- 19:18 消费主张:享受优质产品和服务
- 20:00 经济与法:一切皆有规则
- 20:30 经济信息联播:把握经济脉搏
- 21:20 经济半小时:观经济大势
- 21:55 今日观察
- 22:30 市场分析室
- 23:17 台北故宫3
- 23:42 台北故宫4
- 10/03/03
- 00:07 今日观察
- 00:42 商道:极地求生
- 01:20 晚间精编节目
- 03:20 晚间精编节目
- 05:03 早间精编节目
- 06:00 早间精编节目
- 07:00 第一时间:资讯唤醒每一天
- 09:00 交易时间:权威解读财经资讯
- 11:10 消费主张:享受优质产品和服务
- 11:50 环球财经连线
- 12:30 商道:说商业传奇解财富之道
- 13:00 经济与法:一切皆有规则
- 13:30 交易时间:权威解读财经资讯
- 15:28 经济半小时:观经济大势
- 16:03 魅力世博15
- 16:08 理财在线:当鸟养的鸡
- 16:33 购物街:快乐购物之旅
- 17:33 2010财经小辞典32
- 17:43 交易时间
- 18:15 环球财经连线
- 18:48 魅力世博16
- 18:53 理财在线:蝎子王的致富秘笈
- 19:18 消费主张:享受优质产品和服务
- 20:00 经济与法:一切皆有规则
- 20:30 经济信息联播:把握经济脉搏
- 21:20 经济半小时:观经济大势
- 21:55 今日观察
- 22:30 市场分析室
- 23:17 台北故宫5
- 23:42 台北故宫6
复制代码
难点是:
1.过滤不需要的内容。只取时间和节目标题。
2.需要解决这个网站图片文字问题。(比如第一行“00:57 晚间精编节目”中的“晚间”实际上是一张gif格式图片,还有些数字也是,随机图片,采集时需把它们转为文字, 不然采集到的内容会残缺不全,失去了意义)
3.最好能采集到电视剧的简介(简介在打开的链接中,需要对地址进行处理才能正确取得节目介绍,另外它也有图片文字的问题)
[ 本帖最后由 inittab 于 2010-3-1 22:17 编辑 ]
作者: youxi01 时间: 2010-3-3 17:31
呵呵,用vbs解决似乎更快更好...
作者: inittab 时间: 2010-3-3 18:36
借助第三方工具强大的功能。bat功能可谓强大。
如果不考虑图片字符的话。只要一下命令就可以了达到目的。- curl -s "http://www.tvsou.com/union/uni2.asp?tvid=1&channelid=3&programDT=2010-3-1" | htox32c /ip 2>nul | sed -n "1d;/:/p" | sed "/ex/,$d"
复制代码
需要下载外部工具 curl.exe htox32c.exe 及 sed.exe (我习惯于把它们放到c:\windows\system32 下,这样随便在那都可以调用)
主要是第二个难点。把图片 转化为文本的汉字。
作者: Batcher 时间: 2010-3-3 21:26
目前没有听说哪个命令行工具可以识别图片文字
作者: namejm 时间: 2010-3-3 22:03
可行的办法就是:把所有表示文字的图片名保存到列表中去,图片名和文字一一对应。
初步查看了一下表示文字的图片名,全是10位数字的,遍历下来,工作量不少,如果蛮干的话,也不是整理不出来,但如果没有特别强的需求,这样做似乎不太划算。
为什么不直接去CCTV-2下载呢?
作者: inittab 时间: 2010-3-4 09:10
多谢老大们回复。
cctv 也有节目单,但只提供cctv等不多的频道。tvsou是目前最大最全的节目预告网站。多达上千个电视台呢。我想法是做一个通用采集。频道地址和日期都可以用作为变量参数
图片名和文字一一对应是做不到的,因为图片文件名是随机的10个数字。即使相同的文字,图片名也不一定相同。要手工对应,是不可能实现任务。
作者: inittab 时间: 2010-3-4 09:14
突然想到。
图片文件名没有办法。也许图片的大小。或md5值跟文字是一一对应的
作者: namejm 时间: 2010-3-4 17:05
把所有的文字图片下载下来,有可能是多个图片对应同一文字,但是这样也够用了,现在的关键是建立图片名和文字的对应关系列表,不重复,不遗漏,需要一些耐心。如果非要不可,可以考虑用这个笨办法,不惜成本做一个出来。
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |