美文网首页Python爬虫分析
内涵段子抓取Python

内涵段子抓取Python

作者: 北冥神君 | 来源:发表于2017-12-30 11:22 被阅读46次

分析过程:打开浏览器开发者工具,通过点击下一页可以知道内涵社区的下一页是
动态加载。

image.png

复制到浏览器查看一下是json数据


image.png

通过仔细分析发现

image.png

以下是代码过程

import requests#网络请求模块
import time

#一下是内涵段子分析过程
#真实网址
#http://neihanshequ.com/bar/1/?is_json=1&app_name=neihanshequ_web&max_time=1514600091.0
#上面网址返回的json格式的文件,包含了本页的评论内容和下一页网址的时间戳
#http://neihanshequ.com/bar/1/?is_json=1&app_name=neihanshequ_web&max_time=11514594379
#上面的网址又返回了json文件,包含了本页的评论内容和下一页的时间戳
#故,爬取思路是==》外层循拼接下一页网址,内层循环保存评论内容和下一页的时间戳,内容保存到本地,时间戳返回给外层循环拼接
#注意的是,时间戳可能是整数,也可能是浮点数,
timesamp = 1514600091.0
while type(timesamp) == float or type(timesamp) == int:
    time.sleep(2)
    url = 'http://neihanshequ.com/bar/1/?is_json=1&app_name=neihanshequ_web&max_time='+str(timesamp)
    html = requests.get(url)
    for i in range(20):
        data = html.json()['data']['data'][i]['group']['text']
        print(data,end='\n')
        timesamp = html.json()['data']['max_time']
        with open('内涵段子.txt','a+',encoding='utf-8') as ff:
            ff.write('第'+str(i+1)+'内涵段子:'+data+'\n'*2)

相关文章

  • 内涵段子抓取Python

    分析过程:打开浏览器开发者工具,通过点击下一页可以知道内涵社区的下一页是动态加载。 复制到浏览器查看一下是json...

  • python爬虫-抓取内涵吧内涵段子

    这是个python简易爬虫,主要使用了requests和re模块,适合入门。出处:https://github.c...

  • 内涵段子、糗事百科网页抓取分析

    简介: 最近写了一个小工具,用来抓取内涵段子、糗事百科等各种笑话网站的段子和图片,最后保存文本,并发布在微信公众号...

  • Python爬虫之抓取糗事百科的热门段子

    目的: 抓取糗事百科的热门段子 思路: 抓取热门段子的url中的元素,获取其中的段子内容 代码: https://...

  • 内涵段子

    以前看了周星驰的《大话西游》可以笑的没心没肺,现在看着看着不知不觉就流泪了,想要救紫霞就必须要打败牛魔王,想要打败...

  • 内涵段子

    职业病 同事刚买了一辆新车,由于是新手,基本是他爸开。一个礼拜下来,同事再也不给他爸开了,我就很纳闷了,就你这水平...

  • 内涵段子

    有一个电台节目,点歌的那种。某天,主持人接到一个电话,是一个在狱中服刑的人打来的。他说:我有一个特别好的朋友,今天...

  • 内涵段子

    老板最近想招个保镖,秘书说:“我有个朋友刚刚退伍,人不错,就是有些拘谨”。 老板不屑地说:“部队里混了这么多年还这...

  • 内涵段子

  • 内涵段子

    上联:世间浩然正气在! 下联:难肃爱污及污人! 横批:内涵段子

网友评论

    本文标题:内涵段子抓取Python

    本文链接:https://www.haomeiwen.com/subject/iuuggxtx.html