[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

批处理下载某论坛指定版块内的所有帖子并保存其中的图片

  这是在CCF论坛看到的一个求助帖,感觉可以用curl、wget之类的第三方命令行工具来完成,不过难度不小,颇具挑战性,发出来让大家练练手。
  原帖地址:http://bbs.et8.net/bbs/showthread.php?t=978372
想下载http://www.radinet.com.cn/forum_list.asp?forum_id=9这个版面的所有帖子,试过很多软件,如webzip,offline explorer等,均不能完全满足我的需求。

期望能达到如下效果:
1、该版面现有的210页帖子全部下载,且保持原有的链接。
2、很多帖子又分有好几页甚至几十页,要求都下载。
3、帖子中的附件都下载。因其是图片,不下载的话光有文字没什么意义。

也许上述我试过的软件能达到我说的要求,但我试了N天却始终不能做到。请各位帮帮忙。最好能说地详细些。谢谢。


我是一名放射科医生,看该论坛的帖子也算是业务学习吧。可在家时没时间看,办公室又没有宽带。所以就想把整个版块下载后拷到单位电脑去看。
尺有所短寸有所长,学好批处理没商量;
考虑问题复杂化,解决问题简洁化。

心在天山,身老沧州。

  难点1:该版块每个页面能罗列30个帖子,但是目前总共有200多页,如何才能自动探测帖子列表的总页数?
  难点2:有些热门帖子回复数很多,可能有好几页回复,如何自动探测每个帖子的回复页数?
  难点3:有些帖子内部嵌入了图片,有的是直接上传的,有的是引用其他站点的图片,如何把这些显示在帖子正文中的图片全部抓下来?

  第1、2个难点比较容易攻克,第3个难点就十分考手艺了。
尺有所短寸有所长,学好批处理没商量;
考虑问题复杂化,解决问题简洁化。

心在天山,身老沧州。

TOP

占楼备用
尺有所短寸有所长,学好批处理没商量;
考虑问题复杂化,解决问题简洁化。

心在天山,身老沧州。

TOP

我更担心的是,如果在切换页面的时候有人回复了,可能造成更多问题。。。。
第三方命令行工具编程
Http://Hi.Baidu.Com/Console_App

TOP

这个问题 实在是..............
感觉还是直接找管理员要数据库比较快.....
而且不确定因素太多....
在使用中 管理员对于文件的删改和用户的回复
以及对于帖子内容能否访问的权限问题............
静观高人了.............................
o(∩_∩)o...~~~
空间:http://hi.baidu.com/fair_jm
喜欢批处理的没事的话去逛逛哦~~

TOP

  联系管理员太慢,不一定联系得上,联系上了不一定给你数据。访问权限么,大部分的论坛都对注册用户开放了很多权限,这个论坛甚至对游客都开放了附件浏览权限,下载不成问题。对文件的删改和用户的回复影响不大——总不可能对整个版块同时做删改或回复操作吧?按发帖时间罗列帖子清单能最大程度减少这一因素带来的影响。实际上,用curl、wget等下载文件的速度还是挺快的,只要不是拉BT站点,下载时间都能接受,要是文字性占多数的站点,就更好办了。

  发这个帖子的目的,并不是为了下载某个特定站点特定版块的帖子,推而广之,其原理可以适用于绝大多数论坛,甚至,各位可以自行整理自己所喜爱的论坛里的经典帖子,做成电子书放在自己的机器上慢慢消化。
尺有所短寸有所长,学好批处理没商量;
考虑问题复杂化,解决问题简洁化。

心在天山,身老沧州。

TOP

还要下载附件...简直不可能的吧...么cookie哪来的附件...根本不让下的把...

TOP

  curl是个全能的上传下载命令行工具,允许使用cookie,对付附件下载是小菜一碟,请看curl的应用实例:http://bbs.bathome.net/viewthrea ... amp;page=1#pid36438
尺有所短寸有所长,学好批处理没商量;
考虑问题复杂化,解决问题简洁化。

心在天山,身老沧州。

TOP

wget 好像也可以..
不过..会把很多无关链接都下载下来..
比如你设置下载层数6层,  某帖或者主页上有个 www.163.com 的链接,你可能把163的主页下载好几层..
忘记wget有没域限制了

TOP

(可能不符题意,我觉得不错的东西,链接过来了)
见过有人做过下载百度空间所有文章的代码:  vbs的备份博客.
(看看他的其他文章,博主能力强到让我趴下)
http://hi.baidu.com/loveee/blog/ ... ad81130ef477db.html


居然被360检测了郁闷……   还是试试看
(奇特了,当时在网吧测试成功的,不明白这些咋回事。)

[ 本帖最后由 523066680 于 2009-12-3 17:25 编辑 ]

TOP

或许AUTOIT的IE函数可以帮到你...需要自己写代码了
这个软件可以做到自动登录博客,空间,发布文章,当然也可以下载..
不过通用性很难说,网站代码不同,表单name也不一样

TOP

个人看法 使用 中国网协版的网站下载器·· 我试过了 下载完全OK···

我用的是商业版··· 虽然不能下载原本的语言 但是至少可以一字不漏的把格式修改成html的目录一页一页的看··

用批处理 难度大了。 我的能力还没有到这一步 不好意思 只能发表一个建议 希望能够帮助到这位医生

多救治一点人、

再啰嗦一句 我下载的时候图片还真的是很多 郁闷 ··唰唰唰的往下掉···· 记得下载深度自己填写多一点 最好来个5左右 如果还没满意就10吧  虽然 慢了些 但是绝对能够达到你的要求

[ 本帖最后由 woshisheji 于 2009-12-15 03:05 编辑 ]

TOP

返回列表