Python爬虫初探...

作者: 键盘上的演绎者 | 来源:发表于2018-01-26 09:57 被阅读14次

    前面的文章,我们已经把最基本的开发python的工具都安装并且实验成功了

    然后万物的开发都离不开语法的学习、掌握等等,这个只能靠自己去熟悉,谁也帮不了你

    接下去要入坑的是,爬虫。

    那么我们先来安装爬虫所需要的环境

    这里环境一口气安装完,具体用在爬虫的那些地方也会稍微的解释,更详细的解释会在下面讲解的时候一一阐述

    1、requests 库的安装

    Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib 更加 Pythoner。更重要的一点是它支持 Python3 哦!

    2、 beautifulsoup4 安装

    简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:

    Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。
    它是一个工具箱,通过解析文档为用户提供需要抓取的数据,
    因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
    
    Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。
    你不需要考虑编码方式,除非文档没有指定一个编码方式,
    这时,Beautiful Soup就不能自动识别编码方式了。
    然后,你仅仅需要说明一下原始编码方式就可以了。
    
    Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,
    为用户灵活地提供不同的解析策略或强劲的速度。
    

    3、安装 lxml

    另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同。

    值得注意的是:

    Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装。

    以上所以下载安装都可以通过 
    pip安装
    或者直接下载安装
    
    但是我们懒一点,前面我们已经安装Python开发强大的IDE工具PyCharm了
    这里直接介绍最懒的安装了,其实本质还是pip安装,只不过不用我们在终端运行罢了
    

    如图,打开IDE的Preferences。


    image.png

    点击2中+号,如下图,然后在3中依次输入上面所需要的库,3中输入找到对应的库4,然后就是点击5安装了,安装成功,会出现成功的提示,如图红色框框。

    image.png 安装成功

    安装完成之后,请入坑各个库的用法,下面的文章我们将直接进入实战。

    相关文章

      网友评论

        本文标题:Python爬虫初探...

        本文链接:https://www.haomeiwen.com/subject/ttdiaxtx.html