美文网首页
go语言resty库并发爬取bing大图实战

go语言resty库并发爬取bing大图实战

作者: 越大大雨天 | 来源:发表于2022-01-02 11:29 被阅读0次

    前言

    最近开始好好在看go语言,拖延很久终于把小伙伴给的《Go语言实战》书看完了,但是还没实际上手操作过,想着当年学python的时候也是从爬虫实战开始的,那就先写个go的并发爬虫来作为实战吧。

    使用的爬虫库

    我这里使用了restyhttp请求库,而非go语言内置的请求库,因为resty库封装更多,对参数设置和文件下载十分方便

    使用的html解析

    我习惯使用的xpath方式进行html解析,因此选择使用htmlquery库,如果你喜欢css解析方式也可以使用goquery

    使用的并发控制

    我这里使用的sync.WaitGroup进行的并发控制,也可以改造为channel的方式貌似更好?

    爬取目标及思路

    必应的每日一图很适合作为练手项目,涉及有分页、有html内容提取、有图片下载到本地,正好练手。本次爬虫目标是并发的方式抽取每页大图url地址,并且下载大图到本地。

    • 主页地址: https://bing.ioliu.cn/
    • 爬取思路解析
      本地爬取需要提取大图url地址和保存的文件名,通过后续分析,大图地址只需要将后缀改为?force=download即是直接下载的地址,因此后续需要处理一下抽取到的url。每个page页面的查询参数是?p=1结构。
      因此爬取思路很简单:请求每个page页面 -> 抽取该页面下所有大图下载url -> 请求每个下载url并将图片保存到本地
      image.png

    代码部分

    记录下代码的设计思路,由于是初学,有不足地方还属正常~
    使用了waitGroup的方式控制并发同步,代码内对每一页的抽取及每个大图的下载都使用了goruntine并发的方式,但并没有对并发数量进行控制,容易被封ip~ 后续需要改进。
    这里可以改造为使用channel通道进行并发控制貌似更好一些。

    package main
    
    import (
        "github.com/antchfx/htmlquery"
        "github.com/go-resty/resty/v2"
        "golang.org/x/net/html"
        "log"
        "strconv"
        "strings"
        "sync"
        "time"
    )
    
    // bing图片主页
    const restyBaseUrl = "https://bing.ioliu.cn/"
    // 下载目录
    const restyDownloadPath = "/Users/my/go/src/goProjects/downloads"
    
    func main() {
        // 使用waitGroup控制并发同步,需要在适宜的位置使用Add和Done方法
        var wg sync.WaitGroup
        // 爬取三页测试,多了要出事
        for page := 1; page <= 3; page++ {
            wg.Add(1)
            go getPageImage(page, &wg)
        }
        wg.Wait()
        log.Println("下载完成")
    }
    
    // 大图结构化信息:下载地址及保存文件名
    type imageStruct struct{
        url string
        name string
    }
    
    // 大图结构绑定方法,下载到本地,使用resty包可以很简单的定义重试策略、文件下载目录及文件名,无需手动操作os,很棒
    func (image imageStruct) download(waitGroup *sync.WaitGroup)  {
        defer waitGroup.Done()
        filename := image.name + ".jpg"
        client := resty.New()
        // set retry
        client.
            SetRetryCount(3).
            // Default is 100 milliseconds.
            SetRetryWaitTime(5 * time.Second).
            // Default is 2 seconds.
            SetRetryMaxWaitTime(20 * time.Second)
        // request and save file to path
        client.SetOutputDirectory(restyDownloadPath)
        _, err := client.R().
            SetHeader("Referer", "https://bing.ioliu.cn/").
            SetHeader("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36").
            SetOutput(filename).
            Get(image.url)
        if err != nil {
            log.Printf("下载图片失败:%s,err:%s", image.name, err)
            return
        }
        log.Printf("下载图片成功:%s", image.name)
    }
    
    func getPageImage(page int, waitGroup *sync.WaitGroup) {
        // 请求分页页面并解析出大图详情结构
        defer waitGroup.Done()
        
        // 使用resty包进行http请求,更方便的构造请求头参数和查询参数
        client := resty.New()
        resp, err := client.R().
            SetQueryParams(map[string]string{
                "p": strconv.Itoa(page),
            }).
            SetHeader("Referer", "https://bing.ioliu.cn/").
            SetHeader("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36").
            Get(restyBaseUrl)
        if err != nil {
            log.Fatal(err)
            return
        }
        // 使用htmlquery包进行html元素解析,使用xpath的方式抽取大图item信息
        doc, qErr := htmlquery.Parse(strings.NewReader(resp.String()))
        if qErr != nil {
            log.Fatal(qErr)
        }
        // xpath 匹配响应中所有图片元素,并逐个提取并发下载
        imageItems := htmlquery.Find(doc, "//div[@class='item']/div[@class='card progressive']")
        for _, item := range imageItems {
            filename, bigImageUrl := extractImageInfo(item)
            // 保存大图结构化信息
            img := imageStruct{
                url: bigImageUrl,
                name: filename,
            }
            log.Printf("开始下载:%s", img.name)
            // 并发下载图片,控制时间间隔
            waitGroup.Add(1)
            // 并发调用大图结构化方法,下载大图到本地并命名
            go img.download(waitGroup)
        }
    
    }
    
    // 从大图item元素中抽取下载地址及图片名
    func extractImageInfo(item *html.Node) (string, string){
        //抽取图片信息
        extractImageUrlElem := htmlquery.FindOne(item, "./a")
        nameElem := htmlquery.FindOne(item, "./div[@class='description']/h3")
        name := htmlquery.InnerText(nameElem)
        extractImageUrl := htmlquery.SelectAttr(extractImageUrlElem, "href")
    
        filename := strings.Split(name, "(")[0]
        extractImageUrlRes := strings.Split(extractImageUrl, "?")[0]
        bigImageUrl := "https://bing.ioliu.cn/" + extractImageUrlRes + "?force=download"
        return filename, bigImageUrl
    }
    
    

    效果展示

    我的该go文件名为crawl_bing.go
    因此在当前目录下执行go run crawl_bing.go即可执行,执行效果如下:


    image.png

    我感觉代码里面有一些问题,因为实际文件目录很快就已经下载完成到本地了,但是日志却在缓慢打印,看起来就像下载耗时一样,后面再看看什么问题。。。

    感受

    真的学习新语言和框架要自己去实现去敲才行,只看是没有用的,加油。

    相关文章

      网友评论

          本文标题:go语言resty库并发爬取bing大图实战

          本文链接:https://www.haomeiwen.com/subject/yvdzqrtx.html