goquery爬虫实践案例

作者: 正在修炼的西瓜君 | 来源:发表于2019-04-04 17:11 被阅读10次

goquery爬虫实践案例
数据可视化（五）基于网络爬虫制作可视化图表
golang + goquery写个爬虫
go get xxx timeout
python第六天
Golang 爬虫系列一 goquery
【从零开始学Go】使用goquery爬取全网VIP影视资源在线观
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
Python网络爬虫（七）- 深度爬虫CrawlSpider
Python网络爬虫（二）- urllib爬虫案例

之前一直以为"爬虫"是一门高大上的技术，但自从遇见goquery之后，发现爬取网站也可以这么简单。

goquery是一个使用go语言写的HTML解析库，它最大的特点就是可以像使用jQuery那样，来方便地操作DOM文档，相信做过web开发的人员很快就能掌握其使用方法。

github项目地址

selector(选择器)

我认为selector是这个框架的灵魂所在，就是因为实现了类似于jQuery的DOM选择功能，才使得框架非常容易使用。

以下是几个常用的选择器，看着是不是很熟悉:

s.Find("div")      // 元素选择
s.Find("#Content") // id选择
s.Find(".content") // class选择
s.Find("div[id=Content]") // 属性选择
s.Find("div>p") // 子元素选择
s.Find("div+p") // 相邻元素选择
s.Find("div~p") // 兄弟元素选择

s.Find("#Content").Text() // 获取对象的文本内容
s.Find("#Content").Html() // 获取对象的html
s.Find("#Content").Attr("src") // 获取对象的src属性值

这里推荐一篇文章，非常详细地介绍了goquery选择器的各种用法。

实战

介绍方面网上有写的很好的文章，我也没有什么新的内容补充，所以直接进入实战部分了。

页面分析

这里我用goquery爬了豆瓣电影(心疼豆瓣，好多人把豆瓣电影当爬虫练手)，通过对豆瓣电影主页进行分析，发现电影列表是通过ajax获取的，然而goquery针对的只是静态的DOM文档，对于动态的数据它就无能为力了。

通过观察，找到获取电影列表的url，发现是get方法获取的，那么我们就可以编程构造get请求获取电影列表进行处理了，其有type、tag、sort、page_limit、page_start这几个参数，操作一下页面很容易获取这几个参数值。

使用goquery爬取的是具体的电影详情页面，也没有搞得多复杂，只获取一些基本信息用于展示即可。

爬取电影详情页信息

其实文字上也没什么好描述的，看代码来的更直观明了，先讲一下步骤，首先自然是要get请求获取页面内容了，然后创建一个goquery解析器，最后使用选择器获取需要的数据即可。

func GetMovieInfo(url string) *MovieParam {
    // get请求获取页面
    res, err := http.Get(url)
    if err != nil {
        log.Println(err)
        return nil
    }
    defer res.Body.Close()
    if res.StatusCode != 200 {
        log.Printf("status code error: %d %s", res.StatusCode, res.Status)
        return nil
    }

    // 创建解析器
    doc, err := goquery.NewDocumentFromReader(res.Body)
    if err != nil {
        log.Println(err)
        return nil
    }

    param := MovieParam{}
    doc.Find("#content").Each(func(i int, s *goquery.Selection) {
        param.Year = s.Find("h1 .year").Text() // 年份
        param.Img, _ = s.Find("#mainpic img").Attr("src") // 图片
        param.Summary, _ = s.Find("#link-report span[property]").Html() // 摘要
        param.Rating_people = comhelper.StringToInt(s.Find(".rating_people span[property]").Text()) // 评论人数
        star, _ := s.Find(".bigstar").Attr("class") // 星级值
        param.Bigstar = comhelper.StringToInt(star[len(star)-2 : len(star)])
        stars_five := s.Find(".stars5+div+span").Text() // 5星的比例值
        param.Stars_five = comhelper.StringToFloat(stars_five[0:len(stars_five)-1], 64)
        stars_four := s.Find(".stars4+div+span").Text() // 4星的比例值
        param.Stars_four = comhelper.StringToFloat(stars_four[0:len(stars_four)-1], 64)
        stars_three := s.Find(".stars3+div+span").Text() // 3星的比例值
        param.Stars_three = comhelper.StringToFloat(stars_three[0:len(stars_three)-1], 64)
        stars_two := s.Find(".stars2+div+span").Text() // 2星的比例值
        param.Stars_two = comhelper.StringToFloat(stars_two[0:len(stars_two)-1], 64)
        stars_one := s.Find(".stars1+div+span").Text() // 1星的比例值
        param.Stars_one = comhelper.StringToFloat(stars_one[0:len(stars_one)-1], 64)

        // 图片转换成base64
        img_url, _ := _download_img(param.Img)
        new_img, err := comhelper.ImgToBase64(img_url)
        if err == nil && new_img != "" {
            param.Img = new_img
        }

        s.Find("#info").Each(func(ii int, ss *goquery.Selection) {
            info, _ := ss.Html()
            param.Director = ss.Find("a[rel*=directedBy]").Text() // 导演
            film_length, _ := ss.Find("span[property*=runtime]").Attr("content") // 时长
            param.Film_length = comhelper.StringToInt(film_length)
            param.Release_date = ss.Find("span[property*=initialReleaseDate]").Text() // 上映日期

            // 获取类型
            tags := ""
            ss.Find("span[property*=genre]").Each(func(i int, s *goquery.Selection) {
                if tags == "" {
                    tags += s.Text()
                } else {
                    tags += "/" + s.Text()
                }
            })
            param.Tags = tags

            // 获取主演
            actor := ""
            ss.Find("a[rel*=starring]").Each(func(i int, s *goquery.Selection) {
                if actor == "" {
                    actor += s.Text()
                } else {
                    actor += "/" + s.Text()
                }
            })
            param.Actor = actor

            c_start := strings.Index(info, "<span class=\"pl\">制片国家/地区:</span>")
            c_end := strings.Index(info, "<span class=\"pl\">语言")
            param.Country = comhelper.TrimHtml(info[c_start+44 : c_end])
        })
    })

    return &param
}

那些有id、class或者特殊属性的字段最容易获取了，比较麻烦的是那些没有明显特征的字段，只能通过字符串截取的方法获取了，不过也都是些常规操作，整个流程下来没什么难点，这也说明了goquery的简单易用。