美文网首页
GO学习笔记(24) - 爬虫(1) - 入门

GO学习笔记(24) - 爬虫(1) - 入门

作者: 卡门001 | 来源:发表于2021-07-14 10:23 被阅读0次

目录

  • 爬虫的法律风险 - robots协议
  • 开源框架: Crawlab
  • 开源框架: colly
  • 爬虫相关知识(待补充)

爬虫的法律风险 - robots协议

robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。

robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

比如:

https://www.baidu.com/robots.txt
https://github.com/robots.txt
https://www.oschina.net/robots.txt
https://www.zhenai.com/robots.txt

- 对于没有robots.txt子域名-默认是允许全爬,比如
https://album.zhenai.com/ 

技术风险

  • 监控网站的变化,保证网站更新后,数据仍然可以准确获取数据。

现成框架介绍

Crawlab

Crawlab 是一个使用 Golang 开发的分布式爬虫管理平台,支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。

三种安装方式

  • Docker (推荐)
  • 直接部署
  • Kubernetes(多节点部署)

官网: https://gitee.com/tikazyq/crawlab

colly

Colly 是一个采用 Go 语言编写的 Web 爬虫框架,旨在提供一个能够写任何爬虫/采集器/蜘蛛的简洁模板。通过 Colly ,你可以轻松从网站中提取结构化的数据,然后进行数据挖掘、处理或归档。
官网: https://github.com/gocolly/colly

相关知识(待补充)

  • 模拟登录
  • 突破反爬机制
  • 相关协议
  • 网络模型
  • 速度控制

相关文章

网友评论

      本文标题:GO学习笔记(24) - 爬虫(1) - 入门

      本文链接:https://www.haomeiwen.com/subject/qznhpltx.html