Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技

Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技

作者: YSLMaster | 来源:发表于2018-05-15 14:25 被阅读147次

Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技
Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技
Golang实现简单爬虫框架（2）——单任务版爬虫
[转]Golang 简单爬虫实现
各语言简单爬虫
Golang实现简单爬虫框架（3）——简单并发版
Golang 简单爬虫实现 · 定时任务
python爬虫8: Requests库使用
Golang实现简单爬虫框架（4）——队列实现并发任务调度
学了python究竟有什么用，实际应用场景有哪些？我整理了8个应

探索技术的路上本应该自己造轮子，即使市面上有再多的选择，自己动手尝试也是必要的，第一次尝试必然会问题众多，但你不觉得解决他是一件很有成就感的事情吗，这样才能带给你更大的进步和更深刻的领悟。

如果没有写过的并感兴趣的不妨一起来实现一下这个简单的爬虫。

其实用golang实现爬虫是很简单是事情，但也分情况，我们这次的文章就分享一种最简单的爬虫实现方式，用到的官方库如下：

引用包

如果你能单单通过这些库就想到该怎么做了，那你就很棒棒了。

为了让程序能一直运行下去，我们首先要有一个源网页，然后不断爬抓记录新的链接，记录的手段有很多，比如存在数据库、通过redis缓存、存在文本文件，最简单的应该就是存在数据库了，这个看你们的技术偏向了。我打算把爬来的链接储存在文本文件里。

首先，了解自己爬抓的目标，我准备爬取所有的Golang相关答疑或者文章，然后翻来覆去很多网站都感觉不适合做源网址，然后灵机一动，百度一下

然后就用这样作为源网址吧：百度一下 - Golang实现

有了源网址，那下面的事情只要捋顺就好办了。首先我们为了抓取到链接，需要一个正则表达式

因为这个正则表达式我们后面可能会复用，所以可以存到一个全局变量里。

一个爬虫如果不限制分秒爬抓次数，那你的网络肯定会受不了，如果电脑配置不行的话，电脑也会挂掉，所以我们需要写一个计时器，golang已经提供了计时器的包 => time

为什么要写在一个Timer函数里？当然是用来调用的 /手动滑稽

因为我们存在两种情况，第一次爬取或不是第一次爬取的情况是做不同操作的。那要怎么判断呢？因为我们的链接是储存在txt文件里的，所以我们只需要去查txt文件是不是为空，如果为空就认为他是第一次执行程序，先访问源网址，否则就按照文件里的链接依次访问。

代码如下：

那我们先看一下firstStart()函数，稍后再解释代码：

很抱歉，没有注释习惯

其实很简单，就是发起一个get请求，然后你会获取到byte[]类型的数据，转换成string类型之后，就是网页的代码了。

分解一下（了解原理的跳过这段）：

这段主要是发起一个get网络请求，然后把请求到的byte数据转成stirng类型的数据，跳过正则获取匹配链接获取一个链接数组（不过分赘述，如果还不懂http请求可以另寻百度）

通过循环数组，首先对链接里的特殊符号做特出处理，然后通过checkRegexp函数做查重，就是防止有多个重复链接记录导致浪费资源，最后存入txt文件。

checkRegexp函数：

这里，程序的首次执行已经完成，并可以成功记录爬取的链接了。程序执行如下：

下一篇继续讲如何通过这些记录的链接过滤无用爬取有效内容，如果在上面的代码中，还有疑问或发现惊天大Bug可以私聊

首发文来源：CSDN Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技术原理（一）

相关文章

Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技
上一篇回顾：Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技术原理（一）本篇原文首发：Gola...
Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技
探索技术的路上本应该自己造轮子，即使市面上有再多的选择，自己动手尝试也是必要的，第一次尝试必然会问题众多，但你不觉...
Golang实现简单爬虫框架（2）——单任务版爬虫
Golang实现简单爬虫框架（2）——单任务版爬虫上一篇博客Golang实现简单爬虫框架（1）——项目介绍与环境...
[转]Golang 简单爬虫实现
Golang 简单爬虫实现
各语言简单爬虫
各语言简单爬虫 Python 简单爬虫 golang简单爬虫
Golang实现简单爬虫框架（3）——简单并发版
在上篇文章Golang实现简单爬虫框架（2）——单任务版爬虫中我们实现了一个简单的单任务版爬虫，对于单任务版爬虫，...
Golang 简单爬虫实现 · 定时任务
本文为转载，原文：Golang 简单爬虫实现 · 定时任务介绍通过前一篇文章，我们已经实现了简单的爬虫，爬取小...
python爬虫8: Requests库使用
前言 Requests实现简单易用的HTTP库，基于urllib,比urllib方便，做爬虫使用Requests比...
Golang实现简单爬虫框架（4）——队列实现并发任务调度
前言在上一篇文章《Golang实现简单爬虫框架（3）——简单并发版》中我们实现了一个最简单并发爬虫，调度器为每一...
学了python究竟有什么用，实际应用场景有哪些？我整理了8个应
1、网络爬虫 Python开发爬虫非常方便，有很多可以直接调用的内置库和第三方库，很多pythoner入门学习Py...

网友评论

YSLMaster:但可以点进文章最后的链接，那个网页是有代码片段可以拷贝的
YSLMaster:因为没办法贴代码，所以就截图了
fnoop:写的很好，，但是MD可以贴代码啊

本文标题：Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技

本文链接：https://www.haomeiwen.com/subject/wcnedftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

爬虫专题

Go语言

程序猿

00

程序员

Golang

Go

关于我们|服务条款|联系我们|Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！