第二周

作者: 布拉豆 | 来源:发表于2016-10-10 19:37 被阅读73次

Mongodb的安装配置

Mongodb的安装包(32位和64位)在群里面,找到适合自己电脑的安装包,双击执行....
另外创建一个文件夹,建议就在C:\Program Files\MongoDB的文件夹下创建db文件夹
启动命令:mongod --dbpath C:\MongoDB\data
32位系统因为引擎的因素需要更改默认引擎:
mongod --dbpath C:\MongoDB\data --storageEngine=mmapv1


代码的点评:

  • pymongo的介绍和使用
#连接数据库
conn = pymongo.MongoClient("localhost", 27017)
#获取名字为name的数据库
name = conn.name
name = conn['name']
#获取name数据库的表格
coll = name.coll
coll = name['coll']
  • 多线程问题,Pool类的使用

利用Pool类可以提高程序的运行速度,把函数比作流水线,那Pool的功能就会复制流水线,提高工作效率

#声明一个Pool类
pool = Pool()
#使用map函数,将channel_list信息分割,然后逐个放入get_all_links_from函数中去执行
pool.map(get_all_links_from,channel_list.split())
  • 断点续传问题
  1. 在程序运行过程做标记
  2. 程序启动后主动识别标记,加载爬取进度

爬虫的知识点总结

  1. 请求链接
  2. 分析html拿到需要的数据
    2.1 数据匹配和提取
  3. 插入数据
    3.1 数据的整理--去重
  4. 处理网络Bug
  5. 提高爬虫效率--多线程问题

爬虫框架推荐:Scrapy

Python开源的爬虫框架Scrapy是一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。


Scrapy框架

Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如 BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

Python教程、教程--传送门

相关文章

网友评论

    本文标题:第二周

    本文链接:https://www.haomeiwen.com/subject/ojnpyttx.html