GO学习笔记(24) - 爬虫(1) - 入门

GO学习笔记(24) - 爬虫(1) - 入门

作者: 卡门001 | 来源:发表于2021-07-14 10:23 被阅读0次

GO学习笔记(24) - 爬虫(1) - 入门
Python爬虫入门
（学习笔记）爬虫入门（1）
python爬虫入门，获取全国气象站24小时整点气象数据（二）
python爬虫入门，获取全国气象站24小时整点气象数据（一）
scrapy笔记
[机器学习入门] 李宏毅机器学习笔记-24（introducti
3分钟带你了解世界第一语言Python 入门上手也这么简单！
Python爬虫入门-1.Request库入门
Go语言开发资料收集

目录

爬虫的法律风险 - robots协议
开源框架： Crawlab
开源框架： colly
爬虫相关知识（待补充)

爬虫的法律风险 - robots协议

robots协议也叫robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据（Metadata，又称元数据）。

robots协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。

比如：

https://www.baidu.com/robots.txt
https://github.com/robots.txt
https://www.oschina.net/robots.txt
https://www.zhenai.com/robots.txt

- 对于没有robots.txt子域名-默认是允许全爬，比如
https://album.zhenai.com/

技术风险

监控网站的变化，保证网站更新后，数据仍然可以准确获取数据。

现成框架介绍

Crawlab

Crawlab 是一个使用 Golang 开发的分布式爬虫管理平台，支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。

三种安装方式

Docker (推荐）
直接部署
Kubernetes(多节点部署）

官网: https://gitee.com/tikazyq/crawlab

colly

Colly 是一个采用 Go 语言编写的 Web 爬虫框架，旨在提供一个能够写任何爬虫/采集器/蜘蛛的简洁模板。通过 Colly ，你可以轻松从网站中提取结构化的数据，然后进行数据挖掘、处理或归档。
官网: https://github.com/gocolly/colly

相关知识（待补充)

模拟登录
突破反爬机制
相关协议
网络模型
速度控制

相关文章

GO学习笔记(24) - 爬虫(1) - 入门
目录爬虫的法律风险 - robots协议开源框架： Crawlab 开源框架： colly 爬虫相关知识（待补...
Python爬虫入门
注：采转归档，自己学习查询使用 Python爬虫入门（1）：综述Python爬虫入门（2）：爬虫基础了解Pytho...
（学习笔记）爬虫入门（1）
声明：本人刚刚摸上爬虫的门槛，文中的一些内容也多是我自己学习中碰到的一些问题、解决问题的过程、对问题的一些理解和自...
python爬虫入门，获取全国气象站24小时整点气象数据（二）
python爬虫入门，获取全国气象站24小时整点气象数据（一）python爬虫入门，获取全国气象站24小时整点气象...
python爬虫入门，获取全国气象站24小时整点气象数据（一）
python爬虫入门，获取全国气象站24小时整点气象数据（一）python爬虫入门，获取全国气象站24小时整点气象...
scrapy笔记
1 scrapy的运行原理参考：Learning Scrapy笔记（三）- Scrapy基础Scrapy爬虫入门...
[机器学习入门] 李宏毅机器学习笔记-24（introducti
[机器学习入门] 李宏毅机器学习笔记-24（introduction of Structured Learning...
3分钟带你了解世界第一语言Python 入门上手也这么简单！
一、Python入门 1. Python爬虫入门一之综述 Python爬虫入门二之爬虫基础了解 Python爬虫入...
Python爬虫入门-1.Request库入门
《Python爬虫入门》系列为学习北理工昊天老师课程所做的笔记。 1.Request及其安装 cmd命令行下通过p...
Go语言开发资料收集
【Go 边看边练 -《Go 学习笔记》】系列Go 边看边练 -《Go 学习笔记》系列（一）- 变量、常量Go 边看...

网友评论

本文标题：GO学习笔记(24) - 爬虫(1) - 入门

本文链接：https://www.haomeiwen.com/subject/qznhpltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|GO学习笔记(24) - 爬虫(1) - 入门|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！