1.3 解析库的安装
解析库:lxml, Beautiful Soup, pyquery
解析方法:Xpath解析和CSS选择器解析
1.3.1 lxml的安装
lxml是Python的一个解析库,支持HTML和XML解析,支持Xpath解析方式,而且解析效率非常高
1.3.3 pyquery的安装
pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器。
1.3.4 tesserocr的安装
OCR Optical Character Recongition, 光学字符识别。
tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,核心还是tesseract。
1.4 数据库的安装
关系型数据库 SQLite, MySQL, Oracle, SQL Server, DB2 以表的形式储存
非关系型数据库 MongoDB, Redis 以键值对的形式储存
主要用到了MySQL 还有MongoDB, Redis.
1.42 MongoDB的安装
MongoDB是C++编写的非关系数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储形式类似JSON对象,它的字段值可以包含其他文档,数组及文档数组,非常灵活。
1.4.3 Redis的安装
Redis是一个基于内存的高效的非关系型数据库
1.5 存储库的安装
安装了数据库,还得安装存储库,跟python交互
MySQL需要PyMySQL MongoDB需要PyMongo
1.5.1 PyMySQL的安装
pip install pymysql
1.5.2 PyMongo的安装
pip install pymongo
1.5.3 redis-py的安装
pip install redis
1.5.4 RedisDump的安装
RedisDump是一个用于Redis数据导入/导出的工具,基于Ruby实现的,所以要安装RedisDump,需要先安装Ruby。
网友评论