标题:
[代码合集]
[已解决]怎样用批处理+curl+HtoX32c抓取网页中的文本?
[打印本页]
作者:
lzw198976
时间:
2011-4-22 17:21
标题:
[已解决]怎样用批处理+curl+HtoX32c抓取网页中的文本?
本帖最后由 lzw198976 于 2011-4-27 19:50 编辑
哪位高手可以把下面这个网址的意林原创版杂志抓取出来
http://www.dooland.com/magazine/21146
求代码!让我这个新手依葫芦画瓢,慢慢研究!
作者:
lzw198976
时间:
2011-4-22 17:25
里面有图片预览和精选文章,用curl下载抓取,应该可以抓到精选文章里面的文,然后用HtoX32c转换成txt,我已经抓取到txt文本了,可是没登陆,文章只有一部分,而且我用cd.>21146.txt
for %%i in (txt\*.txt) do (
title 正在整理 %%~nxi
echo.>>21146.txt
findstr /ib "21146" %%i>>21146.txt
echo.>>21146.txt
findstr /ibc:" " %%i>>21146.txt
)
得到的是一个空21146.txt文件!求解!???
作者:
CrLf
时间:
2011-4-22 17:38
1、%%i是否含空格呢?
2、是ansi格式吗?
3、可以直接用findstr /b /c:"21146" /c:" " *.txt>21146.txt
4、建议冲顶向导非txt后缀名的临时文件,以免结果中包括21146.txt本身
作者:
lzw198976
时间:
2011-4-22 19:01
3#
zm900612
代码是我仿照“namejm ”的,我刚刚接触curl,对代码不明白,只能依葫芦画瓢,搬找“namejm ”的,可以浪费您帮我写一段帖子上所求的代码吗?最好有详细说明!非常感谢
作者:
caruko
时间:
2011-4-22 21:41
我也没用过curl,如果只是下载,那么查出
window.location.href='http://dl2.dooland.com/MagazineDep/2011/04/21/意林原创版11
年4月号[30550].exe' 然后下载即可。
而登陆要求HTTPS,像我用NC,一般的方式就无法再继续了。
curl高手来解答吧..
作者:
lzw198976
时间:
2011-4-23 21:27
怎么没高手来伴我解决这个问题啊???
作者:
qzwqzw
时间:
2011-4-27 22:19
登录没要求https吧?
把用户名密码以post方式提交给
http://www.dooland.com/login/
然后保存cookie
然后用此cookie文件访问
http://www.dooland.com/magazine/article_124972.html
应该就可以了
以下代码未测试
curl -d "name=用户名&password=密码&iswritecookie=1" -c cookie.txt
http://www.dooland.com/login/
curl -b cookie.txt
http://www.dooland.com/magazine/article_124972.html
欢迎光临 批处理之家 (http://www.bathome.net/)
Powered by Discuz! 7.2