非常好用的爬虫语言Go

作者: SunY7 | 来源:发表于2023-04-09 16:24 被阅读0次

四. 开发网络爬虫的语言
爬虫练手-豆瓣top250（go版以及python版）
《Go语言四十二章经》第四十一章网络爬虫
kotlin 基础 coroutines 25 （更新中）
爬虫框架整理汇总
go语言爬虫（二）
Go语言爬虫（一）
半个月每天到处搜集数据，结果Python爬虫轻轻松松做到了
半个月每天到处搜集数据，结果Python爬虫轻轻松松做到了
Python爬虫能做什么

我想很多人一开始写爬虫的时候都会选择python+request，其他还有很多其他语言可以选择，比如今天我们要讲的Go语言，接下来让我们来感受一下如何使用 Go 写爬虫。

QQ图片20230410151741.png

首先介绍下框架，golly是 Gopher 们的非常快速且优雅的爬虫框架，提供了一个干净的界面来编写任何种类的爬虫。可以轻松地从网站中提取结构化数据，这些数据可用于各种应用程序，例如数据挖掘，数据处理或归档。他有很多的优点，比如简洁的 API、快速（单核可以达到每秒 1k 个请求）、管理请求延迟和每个域名的最大并发、自动 cookie 和会话处理、同步/异步/并行抓取等。

接下来就是使用go进行爬虫实际，这里我选择的是爬取豆瓣，为什么很多人都喜欢用豆瓣作实践对象呢？因为它实在是太适合做爬虫入门练习了。几乎没有任何反爬限制，最简单的反爬限制就是IP的访问，这个是反爬措施里面最简单的，只需要添加上优质爬虫代理IP的就能解决，代理IP网上有很多的代理商提供，像亿牛云的隧道转发质量就很可，数据爬取完整代码示例如下：
package main

    import (
        "net/url"
        "net/http"
        "bytes"
        "fmt"
        "io/ioutil"
    )

    // 代理服务器(产品官网 www.16yun.cn)
    const ProxyServer = "t.16yun.cn:31111"

    type ProxyAuth struct {
        Username string
        Password string
    }

    func (p ProxyAuth) ProxyClient() http.Client {

        var proxyURL *url.URL
        if p.Username != ""&& p.Password!="" {
            proxyURL, _ = url.Parse("http://" + p.Username + ":" + p.Password + "@" + ProxyServer)
        }else{
            proxyURL, _ = url.Parse("http://" + ProxyServer)
        }
        return http.Client{Transport: &http.Transport{Proxy:http.ProxyURL(proxyURL)}}
    }

    func main()  {


        targetURI := "https://httpbin.org/ip"


        // 初始化 proxy http client
        client := ProxyAuth{"username",  "password"}.ProxyClient()

        request, _ := http.NewRequest("GET", targetURI, bytes.NewBuffer([] byte(``)))

        // 设置Proxy-Tunnel
        // rand.Seed(time.Now().UnixNano())
        // tunnel := rand.Intn(10000)
        // request.Header.Set("Proxy-Tunnel", strconv.Itoa(tunnel) )

        response, err := client.Do(request)

        if err != nil {
            panic("failed to connect: " + err.Error())
        } else {
            bodyByte, err := ioutil.ReadAll(response.Body)
            if err != nil {
                fmt.Println("读取 Body 时出错", err)
                return
            }
            response.Body.Close()

            body := string(bodyByte)

            fmt.Println("Response Status:", response.Status)
            fmt.Println("Response Header:", response.Header)
            fmt.Println("Response Body:\n", body)
        }c