python爬虫常用库

作者: 轻松学Python111 | 来源:发表于2019-08-09 21:17 被阅读0次

请求库:

  1. requests 这个库是爬虫最常用的一个库

  2. Selenium Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作 对于一些用JS做谊染的页面来说,这种抓取方式是非常有效的。

3.ChomeDrive 安装了这个库,才能驱动Chrome浏览器完成相应的操作

4.GeckoDriver 使用W3C WebDriver兼容客户端与基于Gecko的浏览器进行交互的代理。

5.PhantomJS PhantomJS 是一个无界面 、可脚本编程的 WebKit 浏览器引擎,它原生支持多种Web标准:Dom操作,css选择器,json,Canvas以及SVG。

6.aiohttp 之前接收requests库是一个阻塞式HTTP请求库,当我们发送一个请求后。程序会一直等待服务器响应,直到服务器响应后,程序才会最下一步处理。其实,这个过程比较耗时间。如果程序可以在等待的过程中做一些其他的事情,如进行请求的调度,响应的处理等,那么爬虫的效率就会比之前的那种方式有很大的提升。 而aiohttp就是这样一个提供异步web服务的库。使用说这个库用起来还是相当方便的。

解析库:

1.lxml lxml是python的一个解析库,这个库支持HTML和xml的解析,支持XPath的解析方式,而且效率也是非常高的,深受广大程序员的热爱

2.Beautiful Soup Beautiful Soup也是python里一个HTML或XMl的解析库,它可以很方便的懂网页中提取数据,拥有强大的API和多种解析方式。

3.pyquery 同样是一个强大的网页解析工具,它提供了和 jQuery 类似的语法来解析HTML 文梢,

数据库:

1.mysql 数据库

2.MongoDB Mo goDB 是由 ++语言编写的非关系型数据库, 是一个基于分布式文件存储的开源数据库系统内容存储形式类似 JSON 对象,它的字段值可以包含其他文档、数组及文档数组,非常灵活

3.Redis 是一个基于 存的高效的非关系型数据库,

存储库:

1.PyMySOL

2.PyMongo

3.redis-py

4.RedisDump

web库:

1.Flask 是一个轻量级的Web服务程序,它简单,易用,灵活

2.Tornado 是一个支持异步的Web框架,通过使用非阻塞I/O流,可以支持成千上万的开放式连接。

APP爬取相关库:

1.Charles 是一个网络抓包工具,相比 Fiddler,其功能更为强大 且跨平台支持得更好。

2.mitmproxy 是一个支持HTTP和HTTPS的抓包工具,类似于Fiddler,Charles的功能,只不过它通过控制台的形式操作。

3.Android

相关文章

  • BeautifulSoup requests 爬虫初体验

    BeautifulSoup requests 爬虫初体验 说爬虫不得不提python 常用的Python爬虫库(摘...

  • 爬虫基础

    python爬虫基础 python requests常用库 [文章链接](https://www.cnblogs....

  • python爬虫记录

    爬虫是比较常用的程序,用python实现起来非常简单,有几个相关的库,这里就记录一下python常用的爬虫代码,备...

  • Python3爬虫环境配置——请求库安装(附Firefox和Ch

    Python3爬虫环境配置——请求库安装 一、常用库 爬虫主要分为三步:抓取页面、分析页面以及存储数据。抓取页面是...

  • Python爬虫-常用库

    首先安装Anaconda软件,这个包含了Python和pip以及很多的第三方库。 下载地址:https://www...

  • python爬虫常用库

    请求库: requests 这个库是爬虫最常用的一个库 Selenium Selenium 是一个自动化测试工具,...

  • 7.爬虫基本原理

    上一篇:6.Python爬虫常用库的安装下一篇:8.Urllib库基本使用 一、什么是爬虫    简单理解为:请求...

  • Python 3中的Urllib库的使用 !

    在Python中有着这样一个常用的、基础的爬虫库。在Python2中为urllib.urllib,在Python3...

  • 爬虫学习(一)网络请求

    1.基础知识 2.1urllib库 urllib库是python爬虫常用的库文件,其中用的比较多的有urllib....

  • BeautifulSoup4库

    bs4 全名 BeautifulSoup,是编写 python 爬虫常用库之一,主要用来解析 html 标签 ht...

网友评论

    本文标题:python爬虫常用库

    本文链接:https://www.haomeiwen.com/subject/ycykjctx.html