Board logo

标题: [网络连接] 【已解决】如何获取今日头条网的头条号主页每条文章链接 [打印本页]

作者: hlzj88    时间: 2017-7-21 23:50     标题: 【已解决】如何获取今日头条网的头条号主页每条文章链接

本帖最后由 hlzj88 于 2017-7-22 16:36 编辑

描述:地址如高中物理微课堂,头条的地址在浏览器打开后,想得到他内容的链接,但查看源文件是看不到链接的,因此我通常采用保存网页为带图片的网页,在保存的网页里可以看到内容链接。
因此请教,对于这样的网页,有没有办法在如上的地址基础上,一次得到他的内容的链接。
假设有困难,能不能通过代码自动滚动该网页的最早文章,然后自动保存为带图的网页。  提取链接的代码我自己写了,但每次要手动去开网页,并保存,这个过程是很繁琐的。
作者: codegay    时间: 2017-7-22 00:25

你需要这本书。Python网络数据采集 https://www.amazon.cn/dp/B01M3VN9CW/ref=cm_cr_ryp_prd_ttl_sol_1
作者: codegay    时间: 2017-7-22 01:27

自己解析这个json吧
http://www.toutiao.com/pgc/ma/?p ... 1&callback=json
作者: hlzj88    时间: 2017-7-22 07:06

谢谢 codegay ,还是算了吧,这两个回复都是我不能企及的高度。
作者: bbaa    时间: 2017-7-22 10:44

回复 4# hlzj88

抓包发现可以实现
不过需要第三方
作者: pcl_test    时间: 2017-7-22 10:45

  1. //&cls&cscript -nologo -e:jscript "%~f0"&pause&exit
  2. var host='http://www.toutiao.com';
  3. var id='6607289740';
  4. url=host+'/c/user/article/?page_type=1&user_id='+id+'&max_behot_time=0&count=1000';
  5. var http = new ActiveXObject('Msxml2.XMLHTTP');
  6. http.open('GET', url, false);
  7. http.send();
  8. json=http.ResponseText;
  9. if(json){
  10.     var js = eval('('+json+')');
  11.     //max_behot_time=js['next']['max_behot_time'];
  12.     var data=js['data'];
  13.     if(data){
  14.         for(var i=0;i<data.length;i++){
  15.             var item=data[i];
  16.             WSH.echo(
  17.                 (i+1)+'.'+item['title']+'\r\n'+item['abstract']+'\r\n'+host+item['source_url']+'\r\n'+item['display_url']+'\r\n'
  18.             );
  19.         }
  20.     }
  21. }
复制代码

作者: bbaa    时间: 2017-7-22 10:51

回复 6# pcl_test


    速度啊6666
我还在研究CP和AS是不是必须.....
貌似不是。。。。
作者: bbaa    时间: 2017-7-22 10:58

回复 6# pcl_test


    Count貌似是227 Hasmore刚好为false....
作者: hlzj88    时间: 2017-7-22 12:38

回复 6# pcl_test 好厉害的代码,能看到窗口内容是我要的。但是,我得不到他们。还有,想收集更多的头条,因此需要能输入地址,或者从一个文件来读取地址表。

很实用的,要给孩子收集一些学习资料链接。
作者: bbaa    时间: 2017-7-22 16:26

本帖最后由 bbaa 于 2017-7-22 16:31 编辑

回复 9# hlzj88


    如果都是寻找个人主页的所有见面的话
http://www.toutiao.com/c/user/6607289740/#mid=6607310215
把user/后面的数字提取出来,放到斑竹的代码里
中的id=xxxxx
作者: bbaa    时间: 2017-7-22 16:29

回复 9# hlzj88


    可以把地址存到txt
把斑竹代码的第一行改为
  1. //&cls&(cscript -nologo -e:jscript "%~f0")>输出.txt&pause&exit
复制代码
这样信息就会保存在 输出.txt
作者: hlzj88    时间: 2017-7-22 16:32

回复 11# bbaa
谢谢你,看了一下午的Wscript ,就是在寻找输出的方法。

再次谢谢版主。




欢迎光临 批处理之家 (http://www.bathome.net/) Powered by Discuz! 7.2