目录
- 爬虫的法律风险 - robots协议
- 开源框架: Crawlab
- 开源框架: colly
- 爬虫相关知识(待补充)
爬虫的法律风险 - robots协议
robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。
robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。
比如:
https://www.baidu.com/robots.txt
https://github.com/robots.txt
https://www.oschina.net/robots.txt
https://www.zhenai.com/robots.txt
- 对于没有robots.txt子域名-默认是允许全爬,比如
https://album.zhenai.com/
技术风险
- 监控网站的变化,保证网站更新后,数据仍然可以准确获取数据。
现成框架介绍
Crawlab
Crawlab 是一个使用 Golang 开发的分布式爬虫管理平台,支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。
三种安装方式
- Docker (推荐)
- 直接部署
- Kubernetes(多节点部署)
官网: https://gitee.com/tikazyq/crawlab
colly
Colly 是一个采用 Go 语言编写的 Web 爬虫框架,旨在提供一个能够写任何爬虫/采集器/蜘蛛的简洁模板。通过 Colly ,你可以轻松从网站中提取结构化的数据,然后进行数据挖掘、处理或归档。
官网: https://github.com/gocolly/colly
相关知识(待补充)
- 模拟登录
- 突破反爬机制
- 相关协议
- 网络模型
- 速度控制
网友评论