一、写在前面

最近复仇者联盟4正在热映中，很多人都去电影院观看了电影，那么对于这部电影，看过的人都是怎么评价的呢？这时候爬虫就可以派上用场了！

二、主要思路

首先打开豆瓣电影，然后进入复仇者联盟4的详情页面：https://movie.douban.com/subject/26100958/，下拉页面就可以找到这部电影的短评了：

image

虽然它显示的短评有85751条，但是我们却没有办法获取所有的短评，在未登录的情况下只能看到200条短评，登录之后也只能得到500条短评，可是只有500条怎么够呢？所以我们得想办法得到尽量多的短评，思路为分别选择好评、一般、短评和最新，不过最新的短评只显示100条，所以我们能爬取的短评数量就是1600条。

image

当我们把短评爬取下来之后，可以先把短评数据保存到数据库中，然后再对这些短评进行分析。这里我选择用MongoDB数据库来保存数据，然后使用SnowNLP进行情感分析，再使用jieba分词和wordcloud生成词云。

三、主要代码

1.模拟登录

这一步是很重要的，我们需要带着登录之后的Cookie去发送请求才能得到数据，当然也可以打开浏览器登录之后复制Cookie，具体怎么做看个人喜好。登录豆瓣的url为：https://accounts.douban.com/passport/login?，抓一下包就知道怎么模拟登录了，并没有什么难度。代码如下：

def login(self):
    """
    模拟登录
    :return:
    """
    url = "https://accounts.douban.com/j/mobile/login/basic"
    data = {
       "ck": "",
       "name": self.username,
       "password": self.password,
       "remember": "false",
       "ticket": ""
    }
    res = self.session.post(url, headers=self.headers, data=data)
    print("登录成功！欢迎用户：", res.json()["payload"]["account_info"]["name"])

2.情感分析

SnowNLP是python中用来处理文本内容的，可以用来分词、标注、文本情感分析等，情感分析是简单的将文本分为两类，积极和消极，返回值为情绪的概率，越接近1为积极，接近0为消极。代码如下：

def analyze(self):
    """
    情感分析
    :return:
    """
    result = self.col.find()
    comments = []
    for i in result:
        comments.append(i["评论"])
    sentiments_list = []
    for i in comments:
        s = SnowNLP(i)
        sentiments_list.append(s.sentiments)
    plt.hist(sentiments_list, bins=np.arange(0, 1, 0.01), facecolor="g")
    plt.xlabel('Sentiments Probability')
    plt.ylabel('Quantity')
    plt.title('Analysis of Sentiments')
    plt.savefig("Sentiments.png")
    print("情感分析完毕，生成图片Sentiments.png")

3.生成词云

首先要用jieba对评论进行分词，然后我们要设置一些停用词，比如标点符号、“你”、“我”、“一部”、“电影”等词语，最后使用wordcloud模块生成词云图片。代码如下：

def generate(self):
    """
    生成词云
    :return:
    """
    result = self.col.find()
    comments = []
    for i in result:
        comments.append(i["评论"])
    text = jieba.cut("\n".join(comments))

    # 文本清洗，去除标点符号和长度为1的词
    with open("stopwords.txt", "r", encoding='utf-8') as f:
        stopwords = set(f.read().split("\n"))
    stopwords.update({"一部", "一场", "电影", "小时", "分钟"})
    # 使用图片
    mask = np.array(Image.open("Avengers.jpg"))

    # 生成词云
    wc = WordCloud(
        mask=mask,
        stopwords=stopwords,
        font_path="font.ttf",
        max_font_size=200,
        min_font_size=20,
        max_words=100,
        width=1200,
        height=800
    )
    wc.generate(' '.join(text))
    wc.to_file('Avengers.png')
    print("词云已生成，保存为Avengers.png。")
 #python学习交流群 1004391443 每天更新资料