美文网首页简书面面观Python之佳 python自学
使用python爬取流浪地球影评并制作词云,看看别人都说了些说什

使用python爬取流浪地球影评并制作词云,看看别人都说了些说什

作者: 派派森森 | 来源:发表于2019-02-12 18:49 被阅读5次

    蹭个热度,看完电影后爬一下影评并作出词云。

    img
    本次影评取自豆瓣:
    https://movie.douban.com/subject/26266893/
    img

    抓包

    首先是拿到访问的url,一般先使用chrome浏览器自带的F12中的网络部分进行测试。好巧不巧的,点击XHR后直接拿到数据了,那就不搞什么乱七八糟的别的了。

    img
    下面开始分析这个请求的URL地址
    https://movie.douban.com/subject/26266893/comments?start=20&limit=20&sort=new_score&status=P&comments_only=1
    

    和搜索《流浪地球》结果的URL进行对比发现域名+subject+26266893都是一样的,所以这一块就是一个影片的唯一标示码了。

    点击下一页抓包可以发现

    start=40
    

    ,显然start就是显示的开始条数。然后去除后面的拼接部分大胆的使用以下地址:

    https://movie.douban.com/subject/26266893/comments?start=20&limit=20
    https://movie.douban.com/subject/26266893/comments?start=40&limit=20
    ...
    

    所以如果爬取全部的话应该是

    while True:
        url = f'https://movie.douban.com/subject/26266893/comments?start={20*i}&limit=20'
        requests.get(url)
        i += 1
    

    当然这段代码中缺少了一个终止条件,由于没有直观的页码显示,所以按照正常逻辑来说,当拿不到数据的时候,代码就可以结束了。

    数据解析

    img

    从IDE或者抓包工具中都能看到抓去到的东西的内容是个html

    使用工具Xpath Helper可以获取到对应的Xpath是

    //*[@id="comments"]/div/div[2]/p/span/text()
    
    img

    导入

    from lxml import etree
    

    使用以下几行就能获取到内容

    from lxml import etree
    
    response = requests.get(url).content  # 获取网页源码
    html = etree.HTML(response)  # 将网页源码转换为XPath可以解析的格式
    html.xpath('//*[@id="comments"]/div/div[2]/p/span/text()')
    
    img

    跳出While循环的条件

    所以从上可以看出跳出While循环的条件就是拿到的内容为空
    实际测试发现到12页之后就会出行

    img

    采用最简单的cookie来进行登录操作

    img

    把这里的cookie拿出来用就行了

    获取数据部分代码

    import time
    import requests
    from lxml import etree
    
    i = 1
    cookies = {
        'cookie': '_ga=GA1.2.368359059.1504513008; gr_user_id=70cd8d8e-33f4-451f-9d2f-485e0972848b; _vwo_uuid_v2=DA531159C0543E8ED34CDA9307F4F5D42|952eca647e4324910504987dd6b3b16c; viewed="25862578"; douban-fav-remind=1; bid=BbpSXh-2l0I; UM_distinctid=1688ebe76ed917-00fc3d8ad313ab-10306653-13c680-1688ebe76eed09; ll="118172"; CNZZDATA1272964020=1342263888-1524923548-https%253A%252F%252Fwww.baidu.com%252F%7C1549549736; ap_v=0,6.0; __utma=30149280.368359059.1504513008.1548583074.1549551675.6; __utmc=30149280; __utmz=30149280.1549551675.6.5.utmcsr=douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/search; __utmb=30149280.1.10.1549551675; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1549554516%2C%22https%3A%2F%2Fopen.weixin.qq.com%2Fconnect%2Fqrconnect%3Fappid%3Dwxd9c1c6bbd5d59980%26redirect_uri%3Dhttps%253A%252F%252Fwww.douban.com%252Faccounts%252Fconnect%252Fwechat%252Fcallback%26response_type%3Dcode%26scope%3Dsnsapi_login%26state%3DBbpSXh-2l0I%252523douban-web%252523https%25253A%252F%252Fwww.douban.com%252Fsearch%25253Fq%25253D%2525E6%2525B5%252581%2525E6%2525B5%2525AA%2525E5%25259C%2525B0%2525E7%252590%252583%22%5D; _pk_ses.100001.8cb4=*; douban-profile-remind=1; _pk_id.100001.8cb4=d2d47adf74234a9c.1504513005.8.1549554548.1549551671.; dbcl2="149765164:WENJVMTKslo"'}
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
    f = open('wandering.txt', 'w')
    while True:
        url = f'https://movie.douban.com/subject/26266893/comments?start={20*i}&limit=20'
        response = requests.get(url, cookies=cookies, headers=headers).content 
        html = etree.HTML(response)
        new_text_list = html.xpath('//*[@id="comments"]/div/div[2]/p/span/text()')
        f.writelines(new_text_list)
        if not new_text_list:
            break
        else:
            time.sleep(0.25)
            i += 1
            print(f'正在爬取第{20*i}条内容')
    f.close()
    
    img

    制作词云

    #!/usr/bin/env python
    # -*- coding:utf-8 -*-
    # Author:zhongxin
    # datetime:2019/2/7 11:57 PM
    import re  # 正则表达式库
    import collections  # 词频统计库
    import numpy as np  # numpy数据处理库
    import jieba  # 结巴分词
    import wordcloud  # 词云展示库
    from PIL import Image  # 图像处理库
    import matplotlib.pyplot as plt  # 图像展示库
    
    with open('wandering.txt') as f:
        string_data = f.read()
    # 文本预处理
    pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"')  # 定义正则表达式匹配模式
    string_data = re.sub(pattern, '', string_data)  # 将符合模式的字符去除
    
    # 文本分词
    seg_list_exact = jieba.cut(string_data, cut_all=False)  # 精确模式分词
    object_list = []
    remove_words = [u'的', u',', u'和', u'是', u'随着', u'对于', u'对', u'等', u'能', u'都', u'。', u' ', u'、', u'中', u'在', u'了',
                    u'通常', u'如果', u'我', u'需要',u'也',u'电影','就']  # 自定义去除词库
    
    for word in seg_list_exact:  # 循环读出每个分词
        if word not in remove_words:  # 如果不在去除词库中
            object_list.append(word)  # 分词追加到列表
    
    # 词频统计
    word_counts = collections.Counter(object_list)  # 对分词做词频统计
    word_counts_top10 = word_counts.most_common(10)  # 获取前10最高频的词
    print(word_counts_top10)  # 输出检查
    
    # 词频展示
    mask = np.array(Image.open('wordcloud.jpg'))  # 定义词频背景
    wc = wordcloud.WordCloud(
        font_path='/System/Library/Fonts/STHeiti Medium.ttc',  # 设置字体格式
        mask=mask,  # 设置背景图
        max_words=200,  # 最多显示词数
        max_font_size=100  # 字体最大值
    )
    
    wc.generate_from_frequencies(word_counts)  # 从字典生成词云
    image_colors = wordcloud.ImageColorGenerator(mask)  # 从背景图建立颜色方案
    wc.recolor(color_func=image_colors)  # 将词云颜色设置为背景图方案
    plt.imshow(wc)  # 显示词云
    plt.axis('off')  # 关闭坐标轴
    plt.show()  # 显示图像
    
    img

    数据获取部分代码

    img

    词云部分代码

    img img img
    本人对于Python学习创建了一个小小的学习圈子,为各位提供了一个平台,大家一起来讨论学习Python。欢迎各位到来Python学习群:`923414804`一起讨论视频分享学习。Python是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长,掌握Python核心技术,才是掌握真正的价值所在。
    

    相关文章

      网友评论

        本文标题:使用python爬取流浪地球影评并制作词云,看看别人都说了些说什

        本文链接:https://www.haomeiwen.com/subject/ipokeqtx.html