美文网首页GO大数据
goquery爬虫实践案例

goquery爬虫实践案例

作者: 正在修炼的西瓜君 | 来源:发表于2019-04-04 17:11 被阅读10次

之前一直以为"爬虫"是一门高大上的技术,但自从遇见goquery之后,发现爬取网站也可以这么简单。

goquery是一个使用go语言写的HTML解析库,它最大的特点就是可以像使用jQuery那样,来方便地操作DOM文档,相信做过web开发的人员很快就能掌握其使用方法。

github项目地址

selector(选择器)

我认为selector是这个框架的灵魂所在,就是因为实现了类似于jQuery的DOM选择功能,才使得框架非常容易使用。

以下是几个常用的选择器,看着是不是很熟悉:

s.Find("div")      // 元素选择
s.Find("#Content") // id选择
s.Find(".content") // class选择
s.Find("div[id=Content]") // 属性选择
s.Find("div>p") // 子元素选择
s.Find("div+p") // 相邻元素选择
s.Find("div~p") // 兄弟元素选择

s.Find("#Content").Text() // 获取对象的文本内容
s.Find("#Content").Html() // 获取对象的html
s.Find("#Content").Attr("src") // 获取对象的src属性值

这里推荐一篇文章,非常详细地介绍了goquery选择器的各种用法。

实战

介绍方面网上有写的很好的文章,我也没有什么新的内容补充,所以直接进入实战部分了。

页面分析

这里我用goquery爬了豆瓣电影(心疼豆瓣,好多人把豆瓣电影当爬虫练手),通过对豆瓣电影主页进行分析,发现电影列表是通过ajax获取的,然而goquery针对的只是静态的DOM文档,对于动态的数据它就无能为力了。

通过观察,找到获取电影列表的url,发现是get方法获取的,那么我们就可以编程构造get请求获取电影列表进行处理了,其有type、tag、sort、page_limit、page_start这几个参数,操作一下页面很容易获取这几个参数值。

使用goquery爬取的是具体的电影详情页面,也没有搞得多复杂,只获取一些基本信息用于展示即可。

爬取电影详情页信息

其实文字上也没什么好描述的,看代码来的更直观明了,先讲一下步骤,首先自然是要get请求获取页面内容了,然后创建一个goquery解析器,最后使用选择器获取需要的数据即可。

func GetMovieInfo(url string) *MovieParam {
    // get请求获取页面
    res, err := http.Get(url)
    if err != nil {
        log.Println(err)
        return nil
    }
    defer res.Body.Close()
    if res.StatusCode != 200 {
        log.Printf("status code error: %d %s", res.StatusCode, res.Status)
        return nil
    }

    // 创建解析器
    doc, err := goquery.NewDocumentFromReader(res.Body)
    if err != nil {
        log.Println(err)
        return nil
    }

    param := MovieParam{}
    doc.Find("#content").Each(func(i int, s *goquery.Selection) {
        param.Year = s.Find("h1 .year").Text() // 年份
        param.Img, _ = s.Find("#mainpic img").Attr("src") // 图片
        param.Summary, _ = s.Find("#link-report span[property]").Html() // 摘要
        param.Rating_people = comhelper.StringToInt(s.Find(".rating_people span[property]").Text()) // 评论人数
        star, _ := s.Find(".bigstar").Attr("class") // 星级值
        param.Bigstar = comhelper.StringToInt(star[len(star)-2 : len(star)])
        stars_five := s.Find(".stars5+div+span").Text() // 5星的比例值
        param.Stars_five = comhelper.StringToFloat(stars_five[0:len(stars_five)-1], 64)
        stars_four := s.Find(".stars4+div+span").Text() // 4星的比例值
        param.Stars_four = comhelper.StringToFloat(stars_four[0:len(stars_four)-1], 64)
        stars_three := s.Find(".stars3+div+span").Text() // 3星的比例值
        param.Stars_three = comhelper.StringToFloat(stars_three[0:len(stars_three)-1], 64)
        stars_two := s.Find(".stars2+div+span").Text() // 2星的比例值
        param.Stars_two = comhelper.StringToFloat(stars_two[0:len(stars_two)-1], 64)
        stars_one := s.Find(".stars1+div+span").Text() // 1星的比例值
        param.Stars_one = comhelper.StringToFloat(stars_one[0:len(stars_one)-1], 64)

        // 图片转换成base64
        img_url, _ := _download_img(param.Img)
        new_img, err := comhelper.ImgToBase64(img_url)
        if err == nil && new_img != "" {
            param.Img = new_img
        }

        s.Find("#info").Each(func(ii int, ss *goquery.Selection) {
            info, _ := ss.Html()
            param.Director = ss.Find("a[rel*=directedBy]").Text() // 导演
            film_length, _ := ss.Find("span[property*=runtime]").Attr("content") // 时长
            param.Film_length = comhelper.StringToInt(film_length)
            param.Release_date = ss.Find("span[property*=initialReleaseDate]").Text() // 上映日期

            // 获取类型
            tags := ""
            ss.Find("span[property*=genre]").Each(func(i int, s *goquery.Selection) {
                if tags == "" {
                    tags += s.Text()
                } else {
                    tags += "/" + s.Text()
                }
            })
            param.Tags = tags

            // 获取主演
            actor := ""
            ss.Find("a[rel*=starring]").Each(func(i int, s *goquery.Selection) {
                if actor == "" {
                    actor += s.Text()
                } else {
                    actor += "/" + s.Text()
                }
            })
            param.Actor = actor

            c_start := strings.Index(info, "<span class=\"pl\">制片国家/地区:</span>")
            c_end := strings.Index(info, "<span class=\"pl\">语言")
            param.Country = comhelper.TrimHtml(info[c_start+44 : c_end])
        })
    })

    return &param
}

那些有id、class或者特殊属性的字段最容易获取了,比较麻烦的是那些没有明显特征的字段,只能通过字符串截取的方法获取了,不过也都是些常规操作,整个流程下来没什么难点,这也说明了goquery的简单易用。

成果展示

成果展示以及源码点击这里

遇到的问题

频繁访问会导致ip被锁住,不过我也只是练习,所以只是爬取了一点数据用来展示。

图片会有访问权限的问题,所以我转换成了base64格式存到数据库里,不过在页面渲染的时候由于数据量过大导致页面加载巨慢。

相关文章

网友评论

    本文标题:goquery爬虫实践案例

    本文链接:https://www.haomeiwen.com/subject/wlxqiqtx.html