Golang 爬虫 Colly 入门

作者: 梅_梅 | 来源:发表于2018-08-01 16:04 被阅读12次

Golang 爬虫 Colly 入门
golang爬虫框架colly
go爬虫框架colly源码以及软件架构分析
GO学习笔记(24) - 爬虫(1) - 入门
爬虫1 colly
《Go语言四十二章经》第四十一章网络爬虫
各语言简单爬虫
Golang实现简单爬虫框架（2）——单任务版爬虫
[转]Golang 简单爬虫实现
3分钟带你了解世界第一语言Python 入门上手也这么简单！

1. 概述

gocolly是用go实现的网络爬虫框架gocolly快速优雅，在单核上每秒可以发起1K以上请求；以回调函数的形式提供了一组接口，可以实现任意类型的爬虫；依赖goquery库可以像jquery一样选择web元素。

gocolly的官方网站是http://go-colly.org/，提供了详细的文档和示例代码。

2. 安装配置

安装

go get -u github.com/gocolly/colly/...

引入包

import "github.com/gocolly/colly"

3. 流程说明

3.1. 使用流程

使用流程主要是说明使用colly抓取数据前的准备工作

初始化Collector对象， Collector对象是colly的全局句柄
设置全局设置，全局设置主要是设置colly 句柄的代理设置等
注册抓取回调函数，主要是用于在抓取数据后在数据处理的各个流程提取数据以及出发其他操作
设置辅助工具，如抓取链接的存放队列，数据清洗队列等
注册抓取链接
启动程序开始抓取

3.2 抓取流程

每次抓取数据流程中的各个节点都会尝试触发用户注册的抓取回调函数，以完成提取数据等需求, 抓取流程如下。

根据链接每次准备抓取数据前调用注册的 OnRequest做每次抓取前的预处理工作
当抓取数据失败时会调用OnError做错误处理
抓取到数据后调用OnResponse，做刚抓到数据时的处理工作
然后分析抓取到的数据会根据页面上的dom节点触发OnHTML回调进行数据分析
数据分析完毕后会调用 OnScraped函数进行每次抓取后的收尾工作

4. 辅助接口

colly也提供了部分辅助接口，协助完成数据抓取分析流程, 以下列举一部分主要的支持。

queue 用于存放等待抓取的链接
proxy 用于代理发起抓取源
thread 支持多携程并发处理
filter 支持对特殊链接进行过滤
depth 可以设置抓取深度控制抓取

5. 实例

更多可以参考源码链接中的例子

网友评论

量化

本文标题：Golang 爬虫 Colly 入门

本文链接：https://www.haomeiwen.com/subject/sadrvftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Golang 爬虫 Colly 入门

1. 概述

2. 安装配置

3. 流程说明

3.1. 使用流程

3.2 抓取流程

4. 辅助接口

5. 实例

相关文章

Golang 爬虫 Colly 入门

golang爬虫框架colly

go爬虫框架colly源码以及软件架构分析

GO学习笔记(24) - 爬虫(1) - 入门

爬虫1 colly

《Go语言四十二章经》第四十一章网络爬虫

各语言简单爬虫

Golang实现简单爬虫框架（2）——单任务版爬虫

[转]Golang 简单爬虫实现

3分钟带你了解世界第一语言Python 入门上手也这么简单！

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

量化