美文网首页
Python爬虫学习一

Python爬虫学习一

作者: MuYi0420 | 来源:发表于2016-04-06 22:47 被阅读305次

这几天发现一个比较适合Python爬虫初学者的网站,我是跟着里边的kingname老师学习,这就当作是一个学习笔记里,有人想去听老师讲课,可以点这里

单线程爬虫

如何伪装成浏览器呢?

import request
header = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36"}
html = request.get(url, header = header)
html.encoding = 'utf-8'

在get或者post的时候加入User-Agent可以伪装成浏览器。至于怎么获得User-Agentchrome->F12->Network->随便点一个接收的信息->Headers->Request Headers

解析HTML,获取有用信息

  1. 正则表达式
    比较笨的办法。适用于网页简单,正则特别好写的情况,不用安装别的库了。
  2. 利用DOM解析HTML
    BeautifulSoup,request啊什么的都提供了一些功能强大的DOM解析方法,便于使用。
  3. 利用XPath解析HTML
    这其实也是DOM解析的一种吧?但是在爬一些比较复杂的网页时候,特别好用。
XPATH

怎么使用XPath?

    from lxml import etree
    selector = etree.HTML(html)
    selector.xpath('XPATH')

XPath怎么写?

    //     :根节点
    /      :往下层寻找
    /text():提取文本内容
    /@attr :提取属性内容

  #提取div的id为first_div的文字内容  
  selector.xpath('//div[@id="first_div"]/text()')
  
  #提取a标签的href属性
  selector.xpath('//a/@href')

多线程爬虫

虽然Python有GIL,但是多线程还是可以在一定程度上提升爬取的速度。

  from multiprocessing.dummy import Pool as ThreadPool
  pools = ThreadPool(__max_core_num__)
  results = pools.map(Spider_function, target_urls)
  pools.join()
  pools.close()

map(func, seq)函数是Python内置函数,用来接收seq内元素依此执行func后返回的值。

相关文章

  • Python爬虫学习(十六)初窥Scrapy

    Python爬虫学习(一)概述Python爬虫学习(二)urllib基础使用Python爬虫学习(三)urllib...

  • 资料

    Python爬虫系列(一)初期学习爬虫的拾遗与总结(11.4更) Python爬虫学习系列教程 Python爬虫学习手册

  • Python爬虫学习系列教程

    转自: 静觅»Python爬虫学习系列教程 Python爬虫学习系列教程 Python版本:2.7 一、爬虫入门 ...

  • Python爬虫学习之小结(一)

    到目前为止,Python爬虫学习已经写了八篇文章,分别是: Python爬虫学习(一)概述Python爬虫学习(二...

  • 爬虫入门

    为什么要学习爬虫? Python做爬虫优势 关于Python网络爬虫,我们需要学习的有: 什么是爬虫? 网络爬虫(...

  • python爬虫学习-day7-实战

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

  • Python 基础爬虫目录

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

  • python爬虫学习-day5-selenium

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

  • python爬虫学习-day6-ip池

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

  • python爬虫学习-day3-BeautifulSoup

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

网友评论

      本文标题:Python爬虫学习一

      本文链接:https://www.haomeiwen.com/subject/bgemlttx.html