美文网首页
常用的Python爬虫库

常用的Python爬虫库

作者: 边无海 | 来源:发表于2017-06-26 12:21 被阅读0次
  1. HTTP库
  • requests - 人性化的HTTP请求库。(推荐使用)
  • urllib和urllib2 - Python2、Python3自带的http请求库
  • grequests – requests 库 + gevent ,用于异步 HTTP 请求。
  • httplib2 – 全面的 HTTP 客户端库。
  • treq – 类似 requests 的Python API 构建于 Twisted HTTP 客户端之上。
  1. HTML解析库
  • BeautifulSoup – 以 Python 风格的方式来对 HTML 或 XML 进行迭代,搜索和修改。(推荐)
  • cssutils – 一个 Python 的 CSS 库。
  • html5lib – 一个兼容标准的 HTML 文档和片段解析及序列化库。
  • lxml – 一个非常快速,简单易用,功能齐全的库,用来处理 HTML 和 XML。(推荐)
  • re - 正则表达式,规则过于强大以至于难以操作
  1. 网站爬取库
  • Scrapy – 一个快速高级的屏幕爬取及网页采集框架。(推荐)
  • Grab – 站点爬取框架。
  • portia – Scrapy 可视化爬取。
  • pyspider – 一个强大的爬虫系统。

相关文章

  • BeautifulSoup requests 爬虫初体验

    BeautifulSoup requests 爬虫初体验 说爬虫不得不提python 常用的Python爬虫库(摘...

  • 爬虫基础

    python爬虫基础 python requests常用库 [文章链接](https://www.cnblogs....

  • python爬虫记录

    爬虫是比较常用的程序,用python实现起来非常简单,有几个相关的库,这里就记录一下python常用的爬虫代码,备...

  • Python3爬虫环境配置——请求库安装(附Firefox和Ch

    Python3爬虫环境配置——请求库安装 一、常用库 爬虫主要分为三步:抓取页面、分析页面以及存储数据。抓取页面是...

  • Python爬虫-常用库

    首先安装Anaconda软件,这个包含了Python和pip以及很多的第三方库。 下载地址:https://www...

  • python爬虫常用库

    请求库: requests 这个库是爬虫最常用的一个库 Selenium Selenium 是一个自动化测试工具,...

  • Python 3中的Urllib库的使用 !

    在Python中有着这样一个常用的、基础的爬虫库。在Python2中为urllib.urllib,在Python3...

  • 7.爬虫基本原理

    上一篇:6.Python爬虫常用库的安装下一篇:8.Urllib库基本使用 一、什么是爬虫    简单理解为:请求...

  • 爬虫学习(一)网络请求

    1.基础知识 2.1urllib库 urllib库是python爬虫常用的库文件,其中用的比较多的有urllib....

  • 常用的Python爬虫库

    HTTP库 requests - 人性化的HTTP请求库。(推荐使用) urllib和urllib2 - Py...

网友评论

      本文标题:常用的Python爬虫库

      本文链接:https://www.haomeiwen.com/subject/zxodcxtx.html