Python (编程语言) 沿着一条乡村公路路标
第一节我们介绍如何爬取静态网页
静态网页指的是网页的内容不是通过js动态加载出来的
我们可以直接使用一些开发者工具查看
这里我采用谷歌浏览器的开发者工具
本文福利:关注,转发,加小编Python学习群:943752371即可获取PDF文档一套!
Python爬取斗鱼直播静态网页,零基础小白看了都能立马写!开发环境
操作系统:windows 10
Python版本 :3.6
爬取网页模块:requests
分析网页模块:Beautiful Soup 4
模块安装
pip3 install requestspip3 install beautifulsoup4
网页分析
我们使用炉石传说的页面来开始分析
我们可以通过左上角的箭头来定位网页内容对应的源
Python爬取斗鱼直播静态网页,零基础小白看了都能立马写! Python爬取斗鱼直播静态网页,零基础小白看了都能立马写! Python爬取斗鱼直播静态网页,零基础小白看了都能立马写!从上面我们可以看出单个直播的信息都在li标签下面,包括:
- 封面图片地址
- 直播介绍
- 主播名称
- 观看人数
代码介绍
这里逐行介绍代码
1. import相关的模块
import requestsfrom bs4 import BeautifulSoup
2. 使用request模块打开并获取网页内容
verify=False 在打开https网页时使用
url='HTTPs://www.douyu.com/directory/game/'+douyugamer = requests.get(url,verify=False)content=r.content
3. 使用bs4格式化获取的网页
这时就可以使用bs4的功能来处理网页了
soup = BeautifulSoup(content,"lxml")
4. 获取所有li标签
这里获取所有具有data-cid属性的li标签
live_list=soup.find_all('li',attrs = {'data-cid' : True})
5.循环获取到li标签,然后提取需要的信息
Python爬取斗鱼直播静态网页,零基础小白看了都能立马写!我们这里只提取在线人数大于8000的直播间
game_count=all_game.find('span',attrs = {'class' : 'dy-num fr'}).text
代表查找一个span标签,其class属性值为dy-num fr,然后获取它的内容
Python爬取斗鱼直播静态网页,零基础小白看了都能立马写!game_link='https://www.douyu.com'+all_game['href']
代表获取a标签中href属性的值
Python爬取斗鱼直播静态网页,零基础小白看了都能立马写!剩下的同理
6. 最后将获取到的信息放入字典中
Python爬取斗鱼直播静态网页,零基础小白看了都能立马写!这时我们可以将结果存入数据库中供查看,这里就不多说了
执行结果
Python爬取斗鱼直播静态网页,零基础小白看了都能立马写!源码位置
https://github.com/bsbforever/spider/blob/master/static_web.py
网友评论