Python爬取斗鱼直播静态网页，零基础小白看了都能立马写！

作者: 1a076099f916 | 来源:发表于2018-12-04 16:27 被阅读16次

Python爬取斗鱼直播静态网页，零基础小白看了都能立马写！
python爬虫王者荣耀高清皮肤大图背景故事通用爬虫
python 结合selenium+PhantomJS爬取王者荣
零基础Python爬取网页文章和图片详细教学（内附源码、教学视频
爬虫精进(八) ------ selenium
只要浏览器能浏览，我就能爬取——selenium+chrome
前程无忧职位信息爬取
立志精通Python
Python爬虫之爬取静态网页
利用selenium和PhantomJS爬取优酷视频动态最新评论

Python爬取斗鱼直播静态网页，零基础小白看了都能立马写！

Python (编程语言) 沿着一条乡村公路路标

第一节我们介绍如何爬取静态网页

静态网页指的是网页的内容不是通过js动态加载出来的

我们可以直接使用一些开发者工具查看

这里我采用谷歌浏览器的开发者工具

本文福利：关注，转发，加小编Python学习群：943752371即可获取PDF文档一套！

Python爬取斗鱼直播静态网页，零基础小白看了都能立马写！

开发环境

操作系统:windows 10

Python版本 :3.6

爬取网页模块:requests

分析网页模块:Beautiful Soup 4

模块安装

pip3 install requestspip3 install beautifulsoup4

网页分析

我们使用炉石传说的页面来开始分析

https://www.douyu.com/directory/game/How

我们可以通过左上角的箭头来定位网页内容对应的源

Python爬取斗鱼直播静态网页，零基础小白看了都能立马写！

从上面我们可以看出单个直播的信息都在li标签下面，包括:

封面图片地址
直播介绍
主播名称
观看人数

代码介绍

这里逐行介绍代码

1. import相关的模块

import requestsfrom bs4 import BeautifulSoup

2. 使用request模块打开并获取网页内容

verify=False 在打开https网页时使用

url='HTTPs://www.douyu.com/directory/game/'+douyugamer = requests.get(url,verify=False)content=r.content

3. 使用bs4格式化获取的网页

这时就可以使用bs4的功能来处理网页了

soup = BeautifulSoup(content,"lxml")

4. 获取所有li标签

这里获取所有具有data-cid属性的li标签

live_list=soup.find_all('li',attrs = {'data-cid' : True})

5.循环获取到li标签，然后提取需要的信息

Python爬取斗鱼直播静态网页，零基础小白看了都能立马写！

我们这里只提取在线人数大于8000的直播间

game_count=all_game.find('span',attrs = {'class' : 'dy-num fr'}).text

代表查找一个span标签，其class属性值为dy-num fr，然后获取它的内容

Python爬取斗鱼直播静态网页，零基础小白看了都能立马写！

game_link='https://www.douyu.com'+all_game['href']

代表获取a标签中href属性的值

Python爬取斗鱼直播静态网页，零基础小白看了都能立马写！

剩下的同理

6. 最后将获取到的信息放入字典中

Python爬取斗鱼直播静态网页，零基础小白看了都能立马写！

这时我们可以将结果存入数据库中供查看，这里就不多说了

执行结果

Python爬取斗鱼直播静态网页，零基础小白看了都能立马写！

源码位置

https://github.com/bsbforever/spider/blob/master/static_web.py

网友评论

大数据爬虫Python AI Sql

本文标题：Python爬取斗鱼直播静态网页，零基础小白看了都能立马写！

本文链接：https://www.haomeiwen.com/subject/jrqvcqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python爬取斗鱼直播静态网页，零基础小白看了都能立马写！

本文福利：关注，转发，加小编Python学习群：943752371即可获取PDF文档一套！

相关文章

Python爬取斗鱼直播静态网页，零基础小白看了都能立马写！

python爬虫王者荣耀高清皮肤大图背景故事通用爬虫

python 结合selenium+PhantomJS爬取王者荣

零基础Python爬取网页文章和图片详细教学（内附源码、教学视频

爬虫精进(八) ------ selenium

只要浏览器能浏览，我就能爬取——selenium+chrome

前程无忧职位信息爬取

立志精通Python

Python爬虫之爬取静态网页

利用selenium和PhantomJS爬取优酷视频动态最新评论

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据爬虫Python AI Sql