Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技

Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技

作者: YSLMaster | 来源:发表于2018-05-16 20:45 被阅读43次

Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技
Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技
Golang实现简单爬虫框架（2）——单任务版爬虫
[转]Golang 简单爬虫实现
各语言简单爬虫
Golang实现简单爬虫框架（3）——简单并发版
Golang 简单爬虫实现 · 定时任务
python爬虫8: Requests库使用
Golang实现简单爬虫框架（4）——队列实现并发任务调度
学了python究竟有什么用，实际应用场景有哪些？我整理了8个应

上一篇回顾：Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技术原理（一）

本篇原文首发：Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技术原理（二）

程序首次执行成功后，我们已经成功获取了源页面所提供的链接地址。下面我们自然要做的就是通过计时器来爬抓链接列表里的地址。

下一步就是要通过地址列表里的地址逐一爬抓，去掉已经爬抓过的练级，并记录新的有效链接到地址列表里。

再看一下我们的main函数：

上面的firstStart函数（首次执行爬抓）已经执行过了，那就会重新调用main函数，也就是在执行一次判断，但是因为我们的url.txt里已经有12条Url地址，所以这次会执行Timer函数。

Timer函数里我们写了一个计时器，防止程序崩溃或者网络崩溃，所以我这里设置了1秒执行一次，其实没有必要这样，一秒钟执行3-8次也是没什么大问题的（本地情况下），如果放在服务器上，那你得看一下自己的服务器配置和带宽配置酌情考虑了

看一下Timer函数吧：

emm...毫不夸张的表示我看自己的代码都有点吃力

上面的代码创建了一个计时器，时间为一秒。刚开始肯定是先要打开url.txt文件,因为是要做删除和添加操作的，所以打开的模式是读写追加。

这一句就是获取url.txt里的第一条链接地址，我们要先判断一下这个链接内容是不是我们想要的，所以我又用到了之前封装的一个正则检查的函数。

checkRegexp函数：

所用到的正则 => regTitle、regCheckTitle

regTitle是为了在代码中匹配真标题，因为有些网站为了防止爬虫，做了一些假标题以混淆视听，但是这些小伎俩还是很容易解决的，这个regTitle足以屏蔽掉70%的假标题。

反正爬虫就是要和各大网站斗智斗勇 /手动滑稽

regCheckTitle是为了过滤出这个网址是不是我想要的内容，所以我简单的写了一串正则。这串正则的意思主要是标题要带有为什么、怎么等关键词，然后标题必须有golang或者go的存在，这样的内容基本上是我想要的了。

判断的代码段：

如果匹配不到，那就跳过这一条链接咯，反正不是我想要的~

然后这一段就是说删掉这一条链接地址，如果没有有一段，你的爬虫将不厌其烦的去爬抓第一条链接地址，能一直爬到你的ip被服务器安全程序处理掉

应该有人发现，然后呢？怎么没有把东西入库，怎么没有抓取新的链接。

emm...博主最近有点忙，这一段还没写，不过这些内容已经把爬虫的基本原理都给讲掉了，其实很简单对不对，就是发起http请求，然后通过正则匹配出自己想要的内容，再做后续的入库或者注入新鲜链接地址，让程序一直运行下去就好了。

运行一下：

嗯，就这样，有效内容就过滤出来了。

然后如果想要把文章内容提取出来，只需要一个很简单的正则就可以了，这里的处理步骤其实可以写一个单独的函数来调用。但博主现在还没有写，可能会在第三篇写上，如果访问量破2k的话

为了防止有些地方细节代码没有贴上，我把main.go的代码贴一下吧，也可以进文章底部的链接下载整个程序的代码实例，如果还有问题可以call我，qq在上一篇文章里，就不重复贴了。

main.go:

附代码实例：https://download.csdn.net/download/superwebmaster/10415730

相关文章

Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技
上一篇回顾：Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技术原理（一）本篇原文首发：Gola...
Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技
探索技术的路上本应该自己造轮子，即使市面上有再多的选择，自己动手尝试也是必要的，第一次尝试必然会问题众多，但你不觉...
Golang实现简单爬虫框架（2）——单任务版爬虫
Golang实现简单爬虫框架（2）——单任务版爬虫上一篇博客Golang实现简单爬虫框架（1）——项目介绍与环境...
[转]Golang 简单爬虫实现
Golang 简单爬虫实现
各语言简单爬虫
各语言简单爬虫 Python 简单爬虫 golang简单爬虫
Golang实现简单爬虫框架（3）——简单并发版
在上篇文章Golang实现简单爬虫框架（2）——单任务版爬虫中我们实现了一个简单的单任务版爬虫，对于单任务版爬虫，...
Golang 简单爬虫实现 · 定时任务
本文为转载，原文：Golang 简单爬虫实现 · 定时任务介绍通过前一篇文章，我们已经实现了简单的爬虫，爬取小...
python爬虫8: Requests库使用
前言 Requests实现简单易用的HTTP库，基于urllib,比urllib方便，做爬虫使用Requests比...
Golang实现简单爬虫框架（4）——队列实现并发任务调度
前言在上一篇文章《Golang实现简单爬虫框架（3）——简单并发版》中我们实现了一个最简单并发爬虫，调度器为每一...
学了python究竟有什么用，实际应用场景有哪些？我整理了8个应
1、网络爬虫 Python开发爬虫非常方便，有很多可以直接调用的内置库和第三方库，很多pythoner入门学习Py...

网友评论

本文标题：Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技

本文链接：https://www.haomeiwen.com/subject/appmdftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

Golang

00

程序猿

程序员

go学习

关于我们|服务条款|联系我们|Golang原生爬虫简单爬虫实现不依赖第三方包库方便理解技|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！