标题: [网络连接] 【已解决】如何获取今日头条网的头条号主页每条文章链接 [打印本页]
作者: hlzj88 时间: 2017-7-21 23:50 标题: 【已解决】如何获取今日头条网的头条号主页每条文章链接
本帖最后由 hlzj88 于 2017-7-22 16:36 编辑
描述:地址如高中物理微课堂,头条的地址在浏览器打开后,想得到他内容的链接,但查看源文件是看不到链接的,因此我通常采用保存网页为带图片的网页,在保存的网页里可以看到内容链接。
因此请教,对于这样的网页,有没有办法在如上的地址基础上,一次得到他的内容的链接。
假设有困难,能不能通过代码自动滚动该网页的最早文章,然后自动保存为带图的网页。 提取链接的代码我自己写了,但每次要手动去开网页,并保存,这个过程是很繁琐的。
作者: codegay 时间: 2017-7-22 00:25
你需要这本书。Python网络数据采集 https://www.amazon.cn/dp/B01M3VN9CW/ref=cm_cr_ryp_prd_ttl_sol_1
作者: codegay 时间: 2017-7-22 01:27
自己解析这个json吧
http://www.toutiao.com/pgc/ma/?p ... 1&callback=json
作者: hlzj88 时间: 2017-7-22 07:06
谢谢 codegay ,还是算了吧,这两个回复都是我不能企及的高度。
作者: bbaa 时间: 2017-7-22 10:44
回复 4# hlzj88
抓包发现可以实现
不过需要第三方
作者: pcl_test 时间: 2017-7-22 10:45
- //&cls&cscript -nologo -e:jscript "%~f0"&pause&exit
-
- var host='http://www.toutiao.com';
- var id='6607289740';
- url=host+'/c/user/article/?page_type=1&user_id='+id+'&max_behot_time=0&count=1000';
- var http = new ActiveXObject('Msxml2.XMLHTTP');
- http.open('GET', url, false);
- http.send();
- json=http.ResponseText;
- if(json){
- var js = eval('('+json+')');
- //max_behot_time=js['next']['max_behot_time'];
- var data=js['data'];
- if(data){
- for(var i=0;i<data.length;i++){
- var item=data[i];
- WSH.echo(
- (i+1)+'.'+item['title']+'\r\n'+item['abstract']+'\r\n'+host+item['source_url']+'\r\n'+item['display_url']+'\r\n'
- );
- }
- }
- }
复制代码
作者: bbaa 时间: 2017-7-22 10:51
回复 6# pcl_test
速度啊6666
我还在研究CP和AS是不是必须.....
貌似不是。。。。
作者: bbaa 时间: 2017-7-22 10:58
回复 6# pcl_test
Count貌似是227 Hasmore刚好为false....
作者: hlzj88 时间: 2017-7-22 12:38
回复 6# pcl_test 好厉害的代码,能看到窗口内容是我要的。但是,我得不到他们。还有,想收集更多的头条,因此需要能输入地址,或者从一个文件来读取地址表。
很实用的,要给孩子收集一些学习资料链接。
作者: bbaa 时间: 2017-7-22 16:26
本帖最后由 bbaa 于 2017-7-22 16:31 编辑
回复 9# hlzj88
如果都是寻找个人主页的所有见面的话
http://www.toutiao.com/c/user/6607289740/#mid=6607310215
把user/后面的数字提取出来,放到斑竹的代码里
中的id=xxxxx
作者: bbaa 时间: 2017-7-22 16:29
回复 9# hlzj88
可以把地址存到txt
把斑竹代码的第一行改为- //&cls&(cscript -nologo -e:jscript "%~f0")>输出.txt&pause&exit
复制代码
这样信息就会保存在 输出.txt
作者: hlzj88 时间: 2017-7-22 16:32
回复 11# bbaa
谢谢你,看了一下午的Wscript ,就是在寻找输出的方法。
再次谢谢版主。
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |