爬取糗百

作者: cooldownzhng | 来源:发表于2018-01-15 16:59 被阅读0次

爬取糗百
Python 爬虫入门(一)——爬取糗百
【Python爬虫】糗百-文字版块
爬糗事百科段子
爬取糗百12-02
爬取糗百|测试作业
Scrapy爬取糗百并存入MySQL
Scrapy框架之CrawlSpider操作 2018-11-0
1.爬取糗百段子
使用python爬取糗百段子

import requests
from lxml import etree

i = 1
url = "https://www.qiushibaike.com/hot/page" + str(i)
def Html_download(url):
    response = requests.get(url = url, headers = None).text
    root = etree.HTML(response)
    divList = root.xpath('//div[@id="content-left"]/div')
    jokes_all = []
    for div in divList:
        joke_all = []
        print("----")
        author = div.xpath('.//h2/text()')[0].strip()
        print(author)

        contentForAll = div.xpath('.//div[@class="content"]/span[@class="contentForAll"]')
        if contentForAll:
            scr_path = div.xpath('.//a[@class="contentHerf"]/@herf')[0]
            scr = "https://www.qiushibaike.com" + scr_path
            scr_response = requests.get(scr).text
            selector = etree.HTML(scr_response)
            content = selector.xpath('//div[@class="content"]/text()')
            content = "".join(content)#.replace("\n", "")
            print(content)
        else:
            content = div.xpath('.//div[@class="content"]/span/text()')
            content = "".join(content)#.replace("\n", "")
            print(content)
        joke_all.append(content)

        stats_vote = div.xpath('.//span[@class="stats-vote"]/i[@class="number"]/text()')[0]
        print(stats_vote)

        stats_comments = div.xpath('.//span[@class="stats-comments"]//i[@class="number"]/text()')[0]
        print(stats_comments)

        jokes_all.append(joke_all)
    return jokes_all
hhh = Html_download(url)