目录:
技术选型
scrapy 可以加入requests和beautifulsoup
scrapy基于twisted,性能好
方便扩展,有很多内置功能
内置的css
和xpath selector
很方便,速度快
网页分类
- 静态网页
- 动态页面
- webservice(restapi)
爬虫能做什么?
- 搜索引擎:百度 垂直领域搜索引擎(只爬某领域)
- 推荐引擎:今日头条
- 机器学习的数据样本
- 数据分析(金融数据分析) 舆情分析
scrapy 可以加入requests和beautifulsoup
scrapy基于twisted,性能好
方便扩展,有很多内置功能
内置的css
和xpath selector
很方便,速度快
- 静态网页
- 搜索引擎:百度 垂直领域搜索引擎(只爬某领域)
本文标题:python分布式爬虫搜索引擎实战-0-目录索引
本文链接:https://www.haomeiwen.com/subject/tlukottx.html
网友评论