ps:python环境怎么装我就不赘述了。。。这个资料太多了,我推荐使用python2.7 或 python3.4
IDE选择
工欲善其事,必先利其器。我本人用过挺多脚本语言的,讲道理,脚本语言很难有出色的ide,但是pycharm绝对是我用过的最赞的脚本语言ide,不要犹豫,直接用它就好了。官网链接:http://www.jetbrains.com/pycharm/download/,最好下载专业版的,方便很多
ps:干货之一,pycharm专业版激活server一枚:http://idea.qinxi1992.cn ,可以反复用哦
浏览器选择
Chrome或火狐,开发必备。所以大家果断都去下载Chrome或火狐吧。。
爬虫依赖库介绍
- beautifulsoup
- requests
- lxml
- pymongo
以上便是我们编写简单爬虫程序需要的python库,我简单介绍一下(ps:不想复制百科):
- beautifulsoup库,主要功能就是快速处理抓下来的数据,找到你想要的东西,它就是一个工具箱,通过解析文档为用户提供需要抓取的数据。
- requests模块,满足我们各种各样的网络需求,持 HTTP 连接保持和连接池,支持使用 cookie 保持会话,支持文件上传等
- lxml库,lxml是Python语言里和XML以及HTML工作的功能最丰富和最容易使用的库,我们用来配合beautifulsoup使用
- pymongo,用来和mongoDB数据库进行交互,我们爬下来的数据将被存在mongoDB中,当然如果你用mysql等数据库用习惯了也可以不用理这部分。
安装
mac环境
在安装lxml之前记得在终端敲如下命令xcode-select --install
,用来安装Command Line Tools
pip install BeautifulSoup4
pip install requests
pip install lxml
pip install pymongo
如果用mac的话自带的python版本可以满足我们的需求,里面内置了pip,所以只需要在终端敲上面的命令就可以了。当然,有更简单的安装方式,在pycharm中安装,选择File->Default Settings 如图:
firstPic.png
选择右下角‘+’标志,如图:
secPic.png然后搜索你要的库的名字进行安装即可,以上就是mac下的安装方式,不得不说,mac是最简单的。。。
linux安装
ubuntu为例
安装pip,首先在终端键入wget https://bootstrap.pypa.io/get-pip.py
然后键入sudo python get-pip.py
安装pip
安装完毕之后安装lxml,键入
sudo apt-get install python-lxml
之后依次键入
pip install BeautifulSoup4
pip install requests
pip install pymongo
安装完毕
ps:centos系统需要安装依赖,先键入yum install python-devel libxml2-devel libxslt-devel
,然后再使用pip安装lxml即可
windows安装
首先,安装pip,参考http://www.tuicool.com/articles/eiM3Er3
安装完毕之后使用pycharm安装(如mac),或者在命令行键入
pip install BeautifulSoup4
pip install requests
pip install pymongo
安装lxml:https://pypi.python.org/pypi/lxml/3.2.3下载对应的版本,或者去网上寻找对应的whl文件安装,不在一一赘述。
全部安装完之后,启动python解释器键入
import requests
import lxml
from bs4 import BeautifulSoup
import pymongo
没有报错则环境安装完毕
安装MongoDB
mongodb安装的话三个环境差不多流程,我以mac为例:
首先去官网下载https://www.mongodb.org/downloads最新版本的mongoDB压缩包,解压之后打开终端,进入mongoDB解压的目录,我的目录如下
然后
cd bin
新建一个
mongo.conf
文件,编辑该文件,写入:dbpath=/Users/Darker/mongo/bin/db logpath=/Users/Darker/mongo/bin/log/mongod.log port = 27017 fork = true nohttpinterface = true
其中dbPath是数据库存储位置,logPath是log的存储位置,记得在对应位置创建文件夹,如图所示 fourthPic.png
接下来在命令行键入./mongod --config mongo.conf
,得到如下信息则启动成功
接下来运行./mongo
即可进入数据库,当然,推荐使用一些可视化的数据库管理工具,例如robomongo
Ps:windows的同学不需要写conf文件了,直接按照这篇博客上面配置mongo服务就可以了http://www.cnblogs.com/flyoung2008/archive/2012/07/18/2597269.html
写在最后
这篇我们讲解了环境的配置,如果大家有任何问题欢迎留言讨论或咨询,我有时间会一一回复大家,下一章我们正式开始学习爬虫
有兴趣的同学可以加群498945822一起交流学习哦~~
发现问题的同学欢迎指正,直接说就行,不用留面子,博主脸皮厚!
网友评论