爬取糗百

作者: cooldownzhng | 来源:发表于2018-01-15 16:59 被阅读0次
import requests
from lxml import etree

i = 1
url = "https://www.qiushibaike.com/hot/page" + str(i)
def Html_download(url):
    response = requests.get(url = url, headers = None).text
    root = etree.HTML(response)
    divList = root.xpath('//div[@id="content-left"]/div')
    jokes_all = []
    for div in divList:
        joke_all = []
        print("----")
        author = div.xpath('.//h2/text()')[0].strip()
        print(author)

        contentForAll = div.xpath('.//div[@class="content"]/span[@class="contentForAll"]')
        if contentForAll:
            scr_path = div.xpath('.//a[@class="contentHerf"]/@herf')[0]
            scr = "https://www.qiushibaike.com" + scr_path
            scr_response = requests.get(scr).text
            selector = etree.HTML(scr_response)
            content = selector.xpath('//div[@class="content"]/text()')
            content = "".join(content)#.replace("\n", "")
            print(content)
        else:
            content = div.xpath('.//div[@class="content"]/span/text()')
            content = "".join(content)#.replace("\n", "")
            print(content)
        joke_all.append(content)

        stats_vote = div.xpath('.//span[@class="stats-vote"]/i[@class="number"]/text()')[0]
        print(stats_vote)

        stats_comments = div.xpath('.//span[@class="stats-comments"]//i[@class="number"]/text()')[0]
        print(stats_comments)

        jokes_all.append(joke_all)
    return jokes_all
hhh = Html_download(url)

  1. 加载全文的时候,需要注意怎么 获取;

相关文章

  • 爬取糗百

    加载全文的时候,需要注意怎么 获取;

  • Python 爬虫入门(一)——爬取糗百

    爬取糗百内容 GitHub 代码地址https://github.com/injetlee/Python/blob...

  • 【Python爬虫】糗百-文字版块

    **糗百-文字版块https://www.qiushibaike.com/text/爬取作者信息(头像/昵称/性别...

  • 爬糗事百科段子

    本人比较喜欢段子,平时也经常上糗百。所以这次作业也想尝试一下爬取糗百的内容。 网站链接:https://www.q...

  • 爬取糗百12-02

    糗事百科

  • 爬取糗百|测试作业

    主要爬取的糗百文字版,格式比较统一,不需要对图片、视频进行判断。这次爬取只用了标准库,数据提取用了正则表达式。 设...

  • Scrapy爬取糗百并存入MySQL

    爬取糗百文字信息,页面比较简单,爬取难度不大,但要先确定其是否是动态加载。在终端输入命令: 却得到这样的显示:Co...

  • Scrapy框架之CrawlSpider操作 2018-11-0

    提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法?方法一:基于Scrapy框架中的Sp...

  • 1.爬取糗百段子

    python学习笔记 声明:学习笔记主要是根据廖雪峰官方网站python学习学习及博客 #糗百提取一页内容 # -...

  • 使用python爬取糗百段子

    博主CSDN昵称:守护者ly,欢迎大家前去指点最近在自学Python爬虫,写了一个小demo,前来现学现卖!感谢大...

网友评论

    本文标题:爬取糗百

    本文链接:https://www.haomeiwen.com/subject/qgjdoxtx.html