美文网首页GO大数据
goquery爬虫实践案例

goquery爬虫实践案例

作者: 正在修炼的西瓜君 | 来源:发表于2019-04-04 17:11 被阅读10次

    之前一直以为"爬虫"是一门高大上的技术,但自从遇见goquery之后,发现爬取网站也可以这么简单。

    goquery是一个使用go语言写的HTML解析库,它最大的特点就是可以像使用jQuery那样,来方便地操作DOM文档,相信做过web开发的人员很快就能掌握其使用方法。

    github项目地址

    selector(选择器)

    我认为selector是这个框架的灵魂所在,就是因为实现了类似于jQuery的DOM选择功能,才使得框架非常容易使用。

    以下是几个常用的选择器,看着是不是很熟悉:

    s.Find("div")      // 元素选择
    s.Find("#Content") // id选择
    s.Find(".content") // class选择
    s.Find("div[id=Content]") // 属性选择
    s.Find("div>p") // 子元素选择
    s.Find("div+p") // 相邻元素选择
    s.Find("div~p") // 兄弟元素选择
    
    s.Find("#Content").Text() // 获取对象的文本内容
    s.Find("#Content").Html() // 获取对象的html
    s.Find("#Content").Attr("src") // 获取对象的src属性值
    

    这里推荐一篇文章,非常详细地介绍了goquery选择器的各种用法。

    实战

    介绍方面网上有写的很好的文章,我也没有什么新的内容补充,所以直接进入实战部分了。

    页面分析

    这里我用goquery爬了豆瓣电影(心疼豆瓣,好多人把豆瓣电影当爬虫练手),通过对豆瓣电影主页进行分析,发现电影列表是通过ajax获取的,然而goquery针对的只是静态的DOM文档,对于动态的数据它就无能为力了。

    通过观察,找到获取电影列表的url,发现是get方法获取的,那么我们就可以编程构造get请求获取电影列表进行处理了,其有type、tag、sort、page_limit、page_start这几个参数,操作一下页面很容易获取这几个参数值。

    使用goquery爬取的是具体的电影详情页面,也没有搞得多复杂,只获取一些基本信息用于展示即可。

    爬取电影详情页信息

    其实文字上也没什么好描述的,看代码来的更直观明了,先讲一下步骤,首先自然是要get请求获取页面内容了,然后创建一个goquery解析器,最后使用选择器获取需要的数据即可。

    func GetMovieInfo(url string) *MovieParam {
        // get请求获取页面
        res, err := http.Get(url)
        if err != nil {
            log.Println(err)
            return nil
        }
        defer res.Body.Close()
        if res.StatusCode != 200 {
            log.Printf("status code error: %d %s", res.StatusCode, res.Status)
            return nil
        }
    
        // 创建解析器
        doc, err := goquery.NewDocumentFromReader(res.Body)
        if err != nil {
            log.Println(err)
            return nil
        }
    
        param := MovieParam{}
        doc.Find("#content").Each(func(i int, s *goquery.Selection) {
            param.Year = s.Find("h1 .year").Text() // 年份
            param.Img, _ = s.Find("#mainpic img").Attr("src") // 图片
            param.Summary, _ = s.Find("#link-report span[property]").Html() // 摘要
            param.Rating_people = comhelper.StringToInt(s.Find(".rating_people span[property]").Text()) // 评论人数
            star, _ := s.Find(".bigstar").Attr("class") // 星级值
            param.Bigstar = comhelper.StringToInt(star[len(star)-2 : len(star)])
            stars_five := s.Find(".stars5+div+span").Text() // 5星的比例值
            param.Stars_five = comhelper.StringToFloat(stars_five[0:len(stars_five)-1], 64)
            stars_four := s.Find(".stars4+div+span").Text() // 4星的比例值
            param.Stars_four = comhelper.StringToFloat(stars_four[0:len(stars_four)-1], 64)
            stars_three := s.Find(".stars3+div+span").Text() // 3星的比例值
            param.Stars_three = comhelper.StringToFloat(stars_three[0:len(stars_three)-1], 64)
            stars_two := s.Find(".stars2+div+span").Text() // 2星的比例值
            param.Stars_two = comhelper.StringToFloat(stars_two[0:len(stars_two)-1], 64)
            stars_one := s.Find(".stars1+div+span").Text() // 1星的比例值
            param.Stars_one = comhelper.StringToFloat(stars_one[0:len(stars_one)-1], 64)
    
            // 图片转换成base64
            img_url, _ := _download_img(param.Img)
            new_img, err := comhelper.ImgToBase64(img_url)
            if err == nil && new_img != "" {
                param.Img = new_img
            }
    
            s.Find("#info").Each(func(ii int, ss *goquery.Selection) {
                info, _ := ss.Html()
                param.Director = ss.Find("a[rel*=directedBy]").Text() // 导演
                film_length, _ := ss.Find("span[property*=runtime]").Attr("content") // 时长
                param.Film_length = comhelper.StringToInt(film_length)
                param.Release_date = ss.Find("span[property*=initialReleaseDate]").Text() // 上映日期
    
                // 获取类型
                tags := ""
                ss.Find("span[property*=genre]").Each(func(i int, s *goquery.Selection) {
                    if tags == "" {
                        tags += s.Text()
                    } else {
                        tags += "/" + s.Text()
                    }
                })
                param.Tags = tags
    
                // 获取主演
                actor := ""
                ss.Find("a[rel*=starring]").Each(func(i int, s *goquery.Selection) {
                    if actor == "" {
                        actor += s.Text()
                    } else {
                        actor += "/" + s.Text()
                    }
                })
                param.Actor = actor
    
                c_start := strings.Index(info, "<span class=\"pl\">制片国家/地区:</span>")
                c_end := strings.Index(info, "<span class=\"pl\">语言")
                param.Country = comhelper.TrimHtml(info[c_start+44 : c_end])
            })
        })
    
        return &param
    }
    

    那些有id、class或者特殊属性的字段最容易获取了,比较麻烦的是那些没有明显特征的字段,只能通过字符串截取的方法获取了,不过也都是些常规操作,整个流程下来没什么难点,这也说明了goquery的简单易用。

    成果展示

    成果展示以及源码点击这里

    遇到的问题

    频繁访问会导致ip被锁住,不过我也只是练习,所以只是爬取了一点数据用来展示。

    图片会有访问权限的问题,所以我转换成了base64格式存到数据库里,不过在页面渲染的时候由于数据量过大导致页面加载巨慢。

    相关文章

      网友评论

        本文标题:goquery爬虫实践案例

        本文链接:https://www.haomeiwen.com/subject/wlxqiqtx.html