内涵段子抓取Python

作者: 北冥神君 | 来源:发表于2017-12-30 11:22 被阅读46次

内涵段子抓取Python
python爬虫-抓取内涵吧内涵段子
内涵段子、糗事百科网页抓取分析
Python爬虫之抓取糗事百科的热门段子
内涵段子
内涵段子
内涵段子
内涵段子
内涵段子
内涵段子

分析过程：打开浏览器开发者工具，通过点击下一页可以知道内涵社区的下一页是
动态加载。

image.png

复制到浏览器查看一下是json数据

image.png

通过仔细分析发现

image.png

以下是代码过程

import requests#网络请求模块
import time

#一下是内涵段子分析过程
#真实网址
#http://neihanshequ.com/bar/1/?is_json=1&app_name=neihanshequ_web&max_time=1514600091.0
#上面网址返回的json格式的文件，包含了本页的评论内容和下一页网址的时间戳
#http://neihanshequ.com/bar/1/?is_json=1&app_name=neihanshequ_web&max_time=11514594379
#上面的网址又返回了json文件，包含了本页的评论内容和下一页的时间戳
#故，爬取思路是==》外层循拼接下一页网址，内层循环保存评论内容和下一页的时间戳，内容保存到本地，时间戳返回给外层循环拼接
#注意的是，时间戳可能是整数，也可能是浮点数，
timesamp = 1514600091.0
while type(timesamp) == float or type(timesamp) == int:
    time.sleep(2)
    url = 'http://neihanshequ.com/bar/1/?is_json=1&app_name=neihanshequ_web&max_time='+str(timesamp)
    html = requests.get(url)
    for i in range(20):
        data = html.json()['data']['data'][i]['group']['text']
        print(data,end='\n')
        timesamp = html.json()['data']['max_time']
        with open('内涵段子.txt','a+',encoding='utf-8') as ff:
            ff.write('第'+str(i+1)+'内涵段子：'+data+'\n'*2)

网友评论

Python爬虫分析

本文标题：内涵段子抓取Python

本文链接：https://www.haomeiwen.com/subject/iuuggxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

内涵段子抓取Python

相关文章

内涵段子抓取Python

python爬虫-抓取内涵吧内涵段子

内涵段子、糗事百科网页抓取分析

Python爬虫之抓取糗事百科的热门段子

内涵段子

内涵段子

内涵段子

内涵段子

内涵段子

内涵段子

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python爬虫分析