PythonSNs(4)---20行代码爬取斗鱼平台房间数据（上

作者: Wayne_Dream | 来源:发表于2018-05-21 16:57 被阅读45次

PythonSNs(4)---20行代码爬取斗鱼平台房间数据（上
PythonSNs(5)---20行代码爬取斗鱼平台房间数据（下
爬虫:爬取斗鱼房间信息
python爬虫
一些关于数据和代码管理的小思考
斗鱼Unittest测试模块爬取
day 01 用正则爬取电影
python爬虫爬取英雄联盟英雄图片
python爬虫爬取王者荣耀英雄列表图片
(二)爬取豆瓣网的书名（BeautifulSoup库）|Pyth

本期用到json,requests库来爬取网页信息，这次爬的是一个特殊多页式网站，普通多页式网站只需分析不同页面的url,找出其中的不同点，用for in来循环即可，但是斗鱼的https://www.douyu.com/directory/game/LOL中不同页面都是相同的url,这就需要去“F12”来寻找其中的区别。
工具.环境：Python3.6.5，Pycharm，windows10，Firefox

python

1.首先来寻找不同页面的区别

以斗鱼的LOL板块为例：https://www.douyu.com/directory/game/LOL
尝试切换不同页面都是相同的url，那怎么办呢？？？？？？？？？？
按F12呼出开发者工具（在这推荐使用Firefox或chrome浏览器，我用的是Firefox）

开发者工具
要详细学习开发者工具的请自行百度，这里直接选择网络，会看到很多数据，数据发送方法分两种，为“post”and“get”。再选择XHR，点击左上角的删除键，再重新载入网页，就会看到电脑又向服务器发送了多个请求。

网络-XHR
再重复多换几个页面，发现每次换的页码都与其中一个请求名相同

发现不同
点击该条信息，在右边显示该条信息的消息头，有一个请求网址https://www.douyu.com/gapi/rkc/directory/2_1/3，把它复制下来，发现末尾的3就是对应的页数。 OK 第一步结束！

2.get页面信息

打开1中get到的网址https://www.douyu.com/gapi/rkc/directory/2_1/3

JSON
发现里面有我想要爬取的斗鱼房间信息，那么就是它了，接下来要对它进行解剖。

(1)运用`requests`来get该网页的信息

import requests
import json

urls = ['https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(page) for page in range(1, 5)]
for url in urls:
    res = requests.get(url)
    print(res.text)   # 可以想先看看get到的是个什么东西

这里运用for in循环来get到1-5页的网页信息for page in range(1, 5),具体见上面代码

(2)运用`json`库来将已编码的 JSON 字符串解码为 Python 对象

import requests
import json

urls = ['https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(page) for page in range(1, 5)]
for url in urls:
    res = requests.get(url)
    j = json.loads(res.text)
    print(j)  # 可以看到已解码的对象

json.dumps：将 Python 对象编码成 JSON 字符串
json.loads：将已编码的 JSON 字符串解码为 Python 对象

3.处理对象数据

对象数据

看到了一堆糊糊，这时Firefox的优势就体现出来了

json

可以看到各层的所属关系，便于接下来的提取数据，下面是完整代码：

import requests
import json

urls = ['https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(page) for page in range(1, 5)]
for url in urls:
    res = requests.get(url)
    j = json.loads(res.text)
    l1 = j['data']     # 通过观察可以发现要的数据在data下
    l2 = l1['rl']     #在观察发现在data的rl中
    tplt = '{0:{4}<20}\t{1:<12}\t{2:{4}<25}\t{3:<12}'
    print(tplt.format('主播', '房间号', '房间名', '热度', chr(12288)))

    for i in range(len(l2)):   # 这里用到for循环来处理一个列表下多个字典的数据
        zhubo = l2[i]['nn']
        room = l2[i]['rid']
        redu = l2[i]['ol']
        roomname = l2[i]['rn']
        print(tplt.format(zhubo, room, roomname, redu, chr(12288)))

4.结果

运行程序

斗鱼LOL板块房间数据

遇到的问题：在名字中出现中英文混合的字符，会出现对不了齐的问题，有解决方法的可以在评论区分享！谢谢
预告：下一个会教你获取一个房间弹幕词云分析，记得关注哦！
发现错误的可以大力提出，一起交流学习

网友评论

kyriej2:dalao，解读下这段代码 tplt='{0:{4}<20}\t{1:<12}\t{2:{4}<25}\t{3:<12}'
Wayne_Dream:tplt='{0:<20}\t{1:<12}\t{2:<25}\t{3:<12}'这是代表第一个数据占20个字符，第二个数据占12个，以此类推，不够的话自动填充，但因为Python是默认用英文字符来填充的，会导致输出不对齐，所以需使用chr(12288)，让他用中文字符填充，所以添加了{4}，代表使用format中第5个“chr(12288)”的格式来填充
Wayne_Dream:这是用来规范输出格式的

本文标题：PythonSNs(4)---20行代码爬取斗鱼平台房间数据（上

本文链接：https://www.haomeiwen.com/subject/arafjftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！