美文网首页
GO学习笔记(24) - 爬虫(1) - 入门

GO学习笔记(24) - 爬虫(1) - 入门

作者: 卡门001 | 来源:发表于2021-07-14 10:23 被阅读0次

    目录

    • 爬虫的法律风险 - robots协议
    • 开源框架: Crawlab
    • 开源框架: colly
    • 爬虫相关知识(待补充)

    爬虫的法律风险 - robots协议

    robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。

    robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

    比如:

    https://www.baidu.com/robots.txt
    https://github.com/robots.txt
    https://www.oschina.net/robots.txt
    https://www.zhenai.com/robots.txt
    
    - 对于没有robots.txt子域名-默认是允许全爬,比如
    https://album.zhenai.com/ 
    

    技术风险

    • 监控网站的变化,保证网站更新后,数据仍然可以准确获取数据。

    现成框架介绍

    Crawlab

    Crawlab 是一个使用 Golang 开发的分布式爬虫管理平台,支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。

    三种安装方式

    • Docker (推荐)
    • 直接部署
    • Kubernetes(多节点部署)

    官网: https://gitee.com/tikazyq/crawlab

    colly

    Colly 是一个采用 Go 语言编写的 Web 爬虫框架,旨在提供一个能够写任何爬虫/采集器/蜘蛛的简洁模板。通过 Colly ,你可以轻松从网站中提取结构化的数据,然后进行数据挖掘、处理或归档。
    官网: https://github.com/gocolly/colly

    相关知识(待补充)

    • 模拟登录
    • 突破反爬机制
    • 相关协议
    • 网络模型
    • 速度控制

    相关文章

      网友评论

          本文标题:GO学习笔记(24) - 爬虫(1) - 入门

          本文链接:https://www.haomeiwen.com/subject/qznhpltx.html