美文网首页
Python爬虫-常用库

Python爬虫-常用库

作者: 坤哥爱卿 | 来源:发表于2019-07-30 18:09 被阅读0次

首先安装Anaconda软件,这个包含了Python和pip以及很多的第三方库。

下载地址:https://www.anaconda.com/distribution/

下面介绍各种第三方库及安装方式:

1.urllib 和 re (自带库)

验证方法:

2.requests (pip安装)

requests官网:https://2.python-requests.org/en/master/

3.selenium(pip安装) 和 chromeDriver(HomeBrew安装)---- 有界面浏览器,selenium 自动化测试的

chromeDriver安装方式:https://www.jianshu.com/p/a9df5135a3a3

验证方法:

driver.page_source查看网页源码

4.phantomjs(搜索安装)----无界面浏览器

phantomjs下载地址:https://phantomjs.org/download.html

验证方法:

5.lxml (pip安装)---- xpass解析方式

安装方式一:pip install lxml

安装方式二:

(1)先去百度lxml pypi 下载下来

(2)pip install 下载文件的路径

6.beautifulsoup(pip安装)----网页解析库,依赖于lxml

验证方法:

7.pyquery(pip安装) ----网页解析库,语法与jQuery一致

pyquery官网:https://pythonhosted.org/pyquery/

验证方法:

8.pymysql(pip安装)----操作mysql数据库的库

验证方法:

9.pymongo (pip安装)---- 操作mongo数据库

验证方法:

10.redis(pip安装)---- 用于分布式爬虫,维护一个爬起队列(非关系型)

验证方法:

11.flask(pip安装) ---- web库,代理设置

flask官网:http://docs.jinkan.org/docs/flask/

验证方法:

命令行 import flask 验证

12.django (pip安装)---- Web服务器框架,提供一个完整的后台管理,提供多模板引擎,接口,路由,可以做一个完整的网站,用于分布式爬虫维护

django官网:https://www.djangoproject.com/

验证方法:

import django

13.jupyter ---- 网页记事本功能,可调试,支持markdown,依赖于ipython

jupyter官网:https://jupyter.org/

验证方法:

跳转:

可在线编辑,在线编译

14.splash

splash下载地址:https://splash.readthedocs.io/en/stable/


彩蛋:Mac系统下一行命令安装上面的库


pip3 install requests seleniun beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter

相关文章

  • BeautifulSoup requests 爬虫初体验

    BeautifulSoup requests 爬虫初体验 说爬虫不得不提python 常用的Python爬虫库(摘...

  • 爬虫基础

    python爬虫基础 python requests常用库 [文章链接](https://www.cnblogs....

  • python爬虫记录

    爬虫是比较常用的程序,用python实现起来非常简单,有几个相关的库,这里就记录一下python常用的爬虫代码,备...

  • Python3爬虫环境配置——请求库安装(附Firefox和Ch

    Python3爬虫环境配置——请求库安装 一、常用库 爬虫主要分为三步:抓取页面、分析页面以及存储数据。抓取页面是...

  • Python爬虫-常用库

    首先安装Anaconda软件,这个包含了Python和pip以及很多的第三方库。 下载地址:https://www...

  • python爬虫常用库

    请求库: requests 这个库是爬虫最常用的一个库 Selenium Selenium 是一个自动化测试工具,...

  • 7.爬虫基本原理

    上一篇:6.Python爬虫常用库的安装下一篇:8.Urllib库基本使用 一、什么是爬虫    简单理解为:请求...

  • Python 3中的Urllib库的使用 !

    在Python中有着这样一个常用的、基础的爬虫库。在Python2中为urllib.urllib,在Python3...

  • 爬虫学习(一)网络请求

    1.基础知识 2.1urllib库 urllib库是python爬虫常用的库文件,其中用的比较多的有urllib....

  • BeautifulSoup4库

    bs4 全名 BeautifulSoup,是编写 python 爬虫常用库之一,主要用来解析 html 标签 ht...

网友评论

      本文标题:Python爬虫-常用库

      本文链接:https://www.haomeiwen.com/subject/mhgnrctx.html