美文网首页Python学习资料整理python学习之路python
Python爬虫实战入门之工具准备,适合新手的你

Python爬虫实战入门之工具准备,适合新手的你

作者: 头顶一根发的程序猿 | 来源:发表于2019-07-15 09:27 被阅读225次

    一、基础知识

    使用Python编写爬虫,当然至少得了解Python基本的语法,了解:

    基本数据结构

    数据类型

    控制流

    函数的使用

    模块的使用

    不需要过多过深的Python知识,仅此而已。

    个人推荐《Python简明教程》http://www.kuqin.com/abyteofpython_cn/、Python官方的《Python教程》http://python.usyiyi.cn/translate/python_352/tutorial/index.html

    二、开发环境、

    操作系统:Windows 7

    Python版本:Python 3.4

    代码编辑运行环境:个人推荐PyCharm社区版,当然,Python自带的IDLE也行,Notepad++亦可,只要自己使用得习惯。

    三、第三方依赖库

    requests:一个方便、简洁、高效且人性化的HTTP请求库

    BeautifulSoup:HTML解析库

    pymongo:MongoDB的Python封装模块

    selenium:一个Web自动化测试框架,用于模拟登录和获取JS动态数据

    pytesseract:一个OCR识别模块,用于验证码识别

    Pillow:Python图像处理模块

    四、第三方库安装:

    上面列出的第三方模块大多可以通过pip install ××的方式直接安装,部分模块安装方式不一样,下面一一演示:

    requests

    pip install requests

    BeautifulSoup

    pip install bs4

    pymongo

    pip install pymongo

    selenium

    pip install selenium

    Pillow

    1、打开http://www.lfd.uci.edu/~gohlke/pythonlibs/

    2、搜索找到“pillow”

    3、根据自己系统的版本选择对应的下载包

    4、安装

    pip install Pillow‑4.0.0‑cp34‑cp34m‑win32.whl

    pytesseract

    1、pip install pytesseract

    2、安装tesseract

    下载并安装:https://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.02.02.exe

    这样,我们的准备工作就基本完成,如果有另外的需求,在实战中再进行安装,接下来就可以实战Python爬虫了。

    相关文章

      网友评论

        本文标题:Python爬虫实战入门之工具准备,适合新手的你

        本文链接:https://www.haomeiwen.com/subject/jrdgkctx.html