python爬虫的最佳实践(二)--环境搭建

作者: Darkeril | 来源:发表于2016-05-05 19:50 被阅读4728次

    ps:python环境怎么装我就不赘述了。。。这个资料太多了,我推荐使用python2.7 或 python3.4

    IDE选择

    工欲善其事,必先利其器。我本人用过挺多脚本语言的,讲道理,脚本语言很难有出色的ide,但是pycharm绝对是我用过的最赞的脚本语言ide,不要犹豫,直接用它就好了。官网链接:http://www.jetbrains.com/pycharm/download/,最好下载专业版的,方便很多
    ps:干货之一,pycharm专业版激活server一枚:http://idea.qinxi1992.cn ,可以反复用哦

    浏览器选择

    Chrome或火狐,开发必备。所以大家果断都去下载Chrome或火狐吧。。

    爬虫依赖库介绍

    • beautifulsoup
    • requests
    • lxml
    • pymongo

    以上便是我们编写简单爬虫程序需要的python库,我简单介绍一下(ps:不想复制百科):

    • beautifulsoup库,主要功能就是快速处理抓下来的数据,找到你想要的东西,它就是一个工具箱,通过解析文档为用户提供需要抓取的数据。
    • requests模块,满足我们各种各样的网络需求,持 HTTP 连接保持和连接池,支持使用 cookie 保持会话,支持文件上传等
    • lxml库,lxml是Python语言里和XML以及HTML工作的功能最丰富和最容易使用的库,我们用来配合beautifulsoup使用
    • pymongo,用来和mongoDB数据库进行交互,我们爬下来的数据将被存在mongoDB中,当然如果你用mysql等数据库用习惯了也可以不用理这部分。
    安装
    mac环境

    在安装lxml之前记得在终端敲如下命令xcode-select --install,用来安装Command Line Tools
    pip install BeautifulSoup4
    pip install requests
    pip install lxml
    pip install pymongo

    如果用mac的话自带的python版本可以满足我们的需求,里面内置了pip,所以只需要在终端敲上面的命令就可以了。当然,有更简单的安装方式,在pycharm中安装,选择File->Default Settings 如图:


    firstPic.png

    选择右下角‘+’标志,如图:

    secPic.png

    然后搜索你要的库的名字进行安装即可,以上就是mac下的安装方式,不得不说,mac是最简单的。。。

    linux安装

    ubuntu为例
    安装pip,首先在终端键入wget https://bootstrap.pypa.io/get-pip.py
    然后键入sudo python get-pip.py安装pip
    安装完毕之后安装lxml,键入
    sudo apt-get install python-lxml
    之后依次键入
    pip install BeautifulSoup4
    pip install requests
    pip install pymongo
    安装完毕
    ps:centos系统需要安装依赖,先键入yum install python-devel libxml2-devel libxslt-devel,然后再使用pip安装lxml即可

    windows安装

    首先,安装pip,参考http://www.tuicool.com/articles/eiM3Er3
    安装完毕之后使用pycharm安装(如mac),或者在命令行键入
    pip install BeautifulSoup4
    pip install requests
    pip install pymongo
    安装lxml:https://pypi.python.org/pypi/lxml/3.2.3下载对应的版本,或者去网上寻找对应的whl文件安装,不在一一赘述。

    全部安装完之后,启动python解释器键入
    import requests
    import lxml
    from bs4 import BeautifulSoup
    import pymongo
    没有报错则环境安装完毕

    安装MongoDB

    mongodb安装的话三个环境差不多流程,我以mac为例:
    首先去官网下载https://www.mongodb.org/downloads最新版本的mongoDB压缩包,解压之后打开终端,进入mongoDB解压的目录,我的目录如下

    thrPic.png
    然后cd bin
    新建一个mongo.conf文件,编辑该文件,写入:
    dbpath=/Users/Darker/mongo/bin/db logpath=/Users/Darker/mongo/bin/log/mongod.log port = 27017 fork = true nohttpinterface = true
    其中dbPath是数据库存储位置,logPath是log的存储位置,记得在对应位置创建文件夹,如图所示 fourthPic.png

    接下来在命令行键入./mongod --config mongo.conf,得到如下信息则启动成功

    fifthPic.png

    接下来运行./mongo即可进入数据库,当然,推荐使用一些可视化的数据库管理工具,例如robomongo

    Ps:windows的同学不需要写conf文件了,直接按照这篇博客上面配置mongo服务就可以了http://www.cnblogs.com/flyoung2008/archive/2012/07/18/2597269.html

    写在最后

    这篇我们讲解了环境的配置,如果大家有任何问题欢迎留言讨论或咨询,我有时间会一一回复大家,下一章我们正式开始学习爬虫

    有兴趣的同学可以加群498945822一起交流学习哦~~
    发现问题的同学欢迎指正,直接说就行,不用留面子,博主脸皮厚!

    相关文章

      网友评论

        本文标题:python爬虫的最佳实践(二)--环境搭建

        本文链接:https://www.haomeiwen.com/subject/ibakrttx.html