美文网首页爬虫小小白
Python-如何配置动态爬虫环境

Python-如何配置动态爬虫环境

作者: 凡有言说 | 来源:发表于2019-05-23 12:59 被阅读2次

    本篇推文主要讲基于selenium的动态爬虫环境配置:

    • selenium库安装
    • ChromeDriver安装
    • PhantomJS安装

    1.selenium

    Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器来执行特定的动作,比如点击、下拉等操作。对于处理一些 JavaScript 渲染的页面来说,这种方式很有效。
    方法一:在Anaconda Prompt中输入
    pip3 install selenium

    image.png

    方法二:在Anaconda Navigator中安装
    具体可见 Python-如何安装Anaconda缺失包

    2.ChromeDriver

    安装完selenium后,我们需要设置电脑的浏览器(如 Chrome、Firefox 等)来配合 Selenium 工作。下面以Chrome浏览器为例。

    我们需要安装一个驱动:ChromeDriver,来驱动 Chrome 浏览器完成相应的操作。

    首先我们要查看浏览器的版本号,方法是:依次点击Chrome 菜单“帮助”→“关于 Google Chrome”


    image.png

    然后到官网下载相应版本的浏览器驱动
    下载地址:https://chromedriver.storage.googleapis.com/index.html

    下载完后,将 ChromeDriver.exe 直接拖拽到 Python 的 Scripts 目录下。

    推荐一个搜索工具:Everything

    输入chromedriver看到如下说明配置成功

    image.png

    3.PhantomJS

    此外,我们还需要安装PhantomJS ,配合后续的使用。PhantomJS 是一个无界面、可脚本编程 WebKit 浏览器引擎,这样在运行的时候就不会再弹出一个浏览器。

    下载地址:http://phantomjs.org/download.html

    下载完后,同样地将 phantomjs.exe 复制到 Python 的 Scripts 文件夹中就行。

    输入phantomjs -v看到对应版本号,说明phantomjs配置成功。

    image.png

    往后会在文章末尾推荐个人觉得不错的自媒体

    公众号推荐:高级农民工

    XQ高级农民工.png

    相关文章

      网友评论

        本文标题:Python-如何配置动态爬虫环境

        本文链接:https://www.haomeiwen.com/subject/mcshzqtx.html