标题: [原创教程] python 爬虫之获取bathome论坛的最新标题,最新回复,热门主题 [打印本页]
作者: ivor 时间: 2016-2-23 15:23 标题: python 爬虫之获取bathome论坛的最新标题,最新回复,热门主题
拿本论坛作为演示目标网站,实属演示,如有问题,告知删除
本文章旨在交流python下BS4的强大,对于整个网页页面的理解,就是作为一个对象,比如<a href='...' /a>,<div.../div>.每个元素都可以精确定位。包括注释部分
代码少,且能精确获取网页内容,如果你还在用正则截取内容,你就OUT了
中文文档:http://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
Beautiful Soup会帮你节省数小时甚至数天的工作时间.
截止我发表Beautiful Soup 4.2.0已经更新了,而且支持python 3.5- #!/usr/bin/env python
- # python 3.5.1
- import bs4, urllib.request, os
-
- def bathome(soup,idstring):
- homegrids = soup.find(id = idstring)
- a = homegrids.find_all('a')
- #print(homegrids.find_all('a'))
- count = 0
- for i in a:
- count += 1
- if count % 2 == 0:
- print('%-15s文章:%3s' % (str, i.string))
- else:
- str = '用户:%s' % i.string
-
- url = 'http://www.bathome.net/'
- web = urllib.request.urlopen(url)
- soup = bs4.BeautifulSoup(web,'html.parser')
- print("最新主题:")
- bathome(soup, 'homegrids_c_1')
- print("最新回复:")
- bathome(soup, 'homegrids_c_2')
- print("热门主题:")
- bathome(soup, 'homegrids_c_3')
复制代码
作者: bailong360 时间: 2016-2-23 22:31
更小更清晰~
作者: codegay 时间: 2016-2-24 16:47
白龙好像就是站长。。你放心好了。
作者: bailong360 时间: 2016-2-28 16:11
回复 3# codegay
我一个小中尉啥时候成站长了
站长是Batcher
作者: codegay 时间: 2016-2-28 16:25
回复 4# bailong360
哦,那就是我弄错了。
作者: CrLf 时间: 2016-2-28 21:47
回复 5# codegay
啥?这么说你也不是站长?
作者: codegay 时间: 2016-2-28 21:51
回复 6# CrLf
哈哈。好我要当站长。
欢迎光临 批处理之家 (http://www.bathome.net/) |
Powered by Discuz! 7.2 |