第二周

作者: 布拉豆 | 来源:发表于2016-10-10 19:37 被阅读73次

2017-07-15
第二周周检视
2018-03-10
第二周记：既昏便息，关锁门户
晨曦妈妈时间管理践行八月第二周～周检视
苳杭杭手绘训练营第一期|169+加油！
再见，第二周
易效能第二周践行收获
4.0周检视
2019年第15周|自律营复盘

Mongodb的安装配置

Mongodb的安装包(32位和64位)在群里面，找到适合自己电脑的安装包，双击执行....
另外创建一个文件夹，建议就在C:\Program Files\MongoDB的文件夹下创建db文件夹
启动命令：mongod --dbpath C:\MongoDB\data
32位系统因为引擎的因素需要更改默认引擎：
mongod --dbpath C:\MongoDB\data --storageEngine=mmapv1

代码的点评：

pymongo的介绍和使用

#连接数据库
conn = pymongo.MongoClient("localhost", 27017)
#获取名字为name的数据库
name = conn.name
name = conn['name']
#获取name数据库的表格
coll = name.coll
coll = name['coll']

多线程问题，Pool类的使用

利用Pool类可以提高程序的运行速度，把函数比作流水线，那Pool的功能就会复制流水线，提高工作效率

#声明一个Pool类
pool = Pool()
#使用map函数，将channel_list信息分割，然后逐个放入get_all_links_from函数中去执行
pool.map(get_all_links_from,channel_list.split())

断点续传问题

在程序运行过程做标记
程序启动后主动识别标记，加载爬取进度

爬虫的知识点总结

请求链接
分析html拿到需要的数据
2.1 数据匹配和提取
插入数据
3.1 数据的整理--去重
处理网络Bug
提高爬虫效率--多线程问题

爬虫框架推荐：Scrapy

Python开源的爬虫框架Scrapy是一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

Scrapy框架

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如 BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

Python教程、教程--传送门

网友评论

Spbeen——Python技术栈

本文标题：第二周

本文链接：https://www.haomeiwen.com/subject/ojnpyttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

第二周

Mongodb的安装配置

代码的点评：

pymongo的介绍和使用

多线程问题，Pool类的使用

断点续传问题

爬虫的知识点总结

爬虫框架推荐：Scrapy

相关文章

2017-07-15

第二周周检视

2018-03-10

第二周记：既昏便息，关锁门户

晨曦妈妈时间管理践行八月第二周～周检视

苳杭杭手绘训练营第一期|169+加油！

再见，第二周

易效能第二周践行收获

4.0周检视

2019年第15周|自律营复盘

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Spbeen——Python技术栈