爬虫

作者: a荷包蛋 | 来源:发表于2018-02-03 11:01 被阅读0次

利用xpath  获取所需要的东西

W3School官方文档:http://www.w3school.com.cn/xpath/index.asp

XPath使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

             举例说明

import requests

from lxml import etree

import uuid

url_base='http://tieba.baidu.com/'

url1='%sf'%(url_base)

kw = input('输入贴吧:')

begin_page = int(input('起始页:'))

end_page = int(input('结束页:'))

for page in range(begin_page,end_page+1):

    params = {

        'kw':kw,

        'pn':(page-1)*50

    }

    response=requests.get(url=url1,params=params)

    content1=response.content

    # with open('./tieba.html', 'wb') as file:

    #    file.write(content)

    '''数据处理'''

    content1 = content1.decode('utf-8')

    html1 = etree.HTML(content1)

    href_list = html1.xpath(

        '(//div[@class="threadlist_title pull_left j_th_tit "]/a|//div[@class="col2_right j_threadlist_li_right "]/a)/@href')

    for href in href_list:

        url2 = '%s%s' % (url_base, href)

        print(url2)

        response2 = requests.get(url=url2)

        content2 = response2.content

        html2 = etree.HTML(content2)

        src_list = html2.xpath('//div/img[@class="BDE_Image"]/@src')

        for src in src_list:

            file_name = str(uuid.uuid1()) + src[src.rfind('.'):]

            response3 = requests.get(url=src)

            content3 = response3.content

            with open('./images/%s' % file_name, 'wb') as file:

                file.write(content3)

相关文章

  • 11.20-11.26

    本周目标 爬虫 爬虫 爬虫 爬虫

  • 爬虫入门基础

    Day01 一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫...

  • 01-认识爬虫

    一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫三角之争 网...

  • 爬虫原理与数据抓取之一: 通用爬虫和聚焦爬虫

    通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索...

  • (了解)通用爬虫和聚焦爬虫--爬虫基础教程(python)(二)

    通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.我们主要写通用爬虫。 通用爬虫 通...

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

  • 7.爬虫概述

    爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟...

  • 1-基本概念

    简介 为什么选择Python做爬虫 需要技能 爬虫与反爬虫 网络爬虫类型 通用网络爬虫 聚焦网络爬虫 增量式网络爬...

  • 认识爬虫

    前言 我的爬虫笔记 经常看别人通过爬虫分析数据,很有意思,来了兴趣,就开始了爬虫之路。 爬虫 爬虫,即网络爬虫,大...

  • 爬虫入门

    为什么要学习爬虫? Python做爬虫优势 关于Python网络爬虫,我们需要学习的有: 什么是爬虫? 网络爬虫(...

网友评论

      本文标题:爬虫

      本文链接:https://www.haomeiwen.com/subject/igfuzxtx.html