爬取一万条9.7评分的电影！你知道是啥电影吗？这部电影确实好看

作者: 919b0c54458f | 来源:发表于2018-11-16 14:21 被阅读11次

爬取一万条9.7评分的电影！你知道是啥电影吗？这部电影确实好看
爬虫：豆瓣电影图书音乐Top250
TOP250影评数据分析之《Jsoup实现Java爬虫》
Scrapy抓取豆瓣电影TOP250
电影推荐
正则表达式Python案例（2）-爬取豆瓣电影Top250
连看两场《摔跤吧！爸爸》，有什么感想？
今日份荐影：《横道世之介》
自由不死，摇滚不灭。这帮DJ玩大了！
国产电影经典之作，至今无人超越

作者：量化小白H

7月番《工作细胞》最终话在十一前放出。这部动漫在b站上评分高达9.7。除了口碑之外，热度也居高不下，更值得关注的是连很多平时不关注动漫的小伙伴也加入了追番大军。这次我们的目标是爬取b站上的所有短评进行分析，用数据说明为什么这部动漫会如此受欢迎。

01工作细胞

《工作细胞》改编自清水茜老师的同名漫画，由David Production制作。众所周知，日本ACG作品向来信奉着“万物皆可萌”的原则。前有《黑塔利亚》，后有《舰队Collection》和《兽娘动物园》，分别讲述了将国家，战舰和动物拟人化后的故事。而在《工作细胞》里拟人的对象则轮到了我们的细胞。

这是一个发生在人体内的故事：

人的细胞数量，约为37兆2千亿个。

其中包括了我们的女主角：一个副业是运输氧气，主业是迷路的红血球。

男主角：一个作者懒得涂色但武力值max的白血球。两人一见面就并肩战斗，分别的时候更是满天粉红气泡。

虽然嘴上说着：不会，我只是千千万万个白细胞中的一员。身体却很诚实，从第一集偶遇女主到最后一集，每一集都充满了狗粮的味道。37兆分之一的缘分果然妙不可言。

除了男女主角，配角们的人气也都很高。连反派boss癌细胞都有人喜欢，主要还是因为身世感人+脸长得好。当然人气最！最！最！高的还是我们奶声奶气的血小板。

据宅男们反映：“看了这么多番。只有这一部的老婆是大家真正拥有的。”不仅有，还有很多。除了新颖的科普形式，这部番令人感触最深的是：我们每一个人都不是孤独的个体，有37兆个只属于我们的细胞和我们一同工作不息。每当颓唐和失意的时候，为了那些为了保护你而战斗不止的免疫细胞，为了萌萌的老婆们也要振作起来啊。

《工作细胞》的成功并不是一个偶然，而是众多因素共同作用的结果。下面从数据的角度分析它成为今年7月播放冠军的原因。

谢谢宇哥对这部分的贡献，显然超出我的能力范围！

私信小编01 02 03 04 即可获取数十套PDF以及大量的学习教程！希望通过Python拿到高薪哦！

02爬虫

首先要做的是爬取b站的 所有短评 ，包括评论用户名、评论时间、星级（评分）、评论内容、点赞数等内容，本部分内容为爬虫代码的说明，不感兴趣的读者可以直接跳过，阅读下一部分的分析。

爬的过程写了很久，b站短评不需要登陆直接就可以爬，刚开始用类似之前爬豆瓣的方法，用 Selenium + xpath 定位爬

但b站短评用这种方法并不好处理。网站每次最多显示20条短评，滚动条移动到最下面才会加载之后的20条，所以刚开始用了每次爬完之后将定位到当前爬的位置的方法，这样定位到当前加载的最后一条时，就会加载之后的20条短评。

逻辑上是解决了这个问题，但真的爬的时候就出现了问题，一个是爬的慢，20条需要十来秒的样子，这个没关系，大不了爬几个小时，但问题是辛辛苦苦爬了两千多条之后，就自动断了，不知道是什么原因，虽然之前爬的数据都存下来了，但没法接着断开的地方接着爬，又要重新开始，还不知道会不会又突然断，所以用这种方法基本就无解了。代码附在下面，虽然是失败的，但也可以爬一些评论下来，供参考。

1# -*- coding: utf-8 -*-

2"""

3Created on Mon Sep 10 19:36:24 2018

4"""

5from selenium import webdriver

6import pandas as pd

7from datetime import datetime

8import numpy as np

9import time

10import os

12os.chdir('F:\python_study\pachong\工作细胞')

13def gethtml(url):

15 browser = webdriver.PhantomJS()

16 browser.get(url)

17 browser.implicitly_wait(10)

18 return(browser)

20def getComment(url):

22 browser = gethtml(url)

23 i = 1

24 AllArticle = pd.DataFrame(columns = ['id','author','comment','stars1','stars2','stars3','stars4','stars5','unlike','like'])

25 print('连接成功，开始爬取数据')

26 while True:

28 xpath1 = '//*[@id="app"]/div[2]/div[2]/div/div[1]/div/div/div[4]/div/div/ul/li[{}]'.format(i)

29 try:

30 target = browser.find_element_by_xpath(xpath1)

31 except:

32 print('全部爬完')

33 break

35 author = target.find_element_by_xpath('div[1]/div[2]').text

36 comment = target.find_element_by_xpath('div[2]/div').text

37 stars1 = target.find_element_by_xpath('div[1]/div[3]/span/i[1]').get_attribute('class')

38 stars2 = target.find_element_by_xpath('div[1]/div[3]/span/i[2]').get_attribute('class')

39 stars3 = target.find_element_by_xpath('div[1]/div[3]/span/i[3]').get_attribute('class')

40 stars4 = target.find_element_by_xpath('div[1]/div[3]/span/i[4]').get_attribute('class')

41 stars5 = target.find_element_by_xpath('div[1]/div[3]/span/i[5]').get_attribute('class')

42 date = target.find_element_by_xpath('div[1]/div[4]').text

43 like = target.find_element_by_xpath('div[3]/div[1]').text

44 unlike = target.find_element_by_xpath('div[3]/div[2]').text

47 comments = pd.DataFrame([i,author,comment,stars1,stars2,stars3,stars4,stars5,like,unlike]).T

48 comments.columns = ['id','author','comment','stars1','stars2','stars3','stars4','stars5','unlike','like']

49 AllArticle = pd.concat([AllArticle,comments],axis = 0)

50 browser.execute_script("arguments[0].scrollIntoView();", target)

51 i = i + 1

52 if i%100 == 0:

53 print('已爬取{}条'.format(i))

54 AllArticle = AllArticle.reset_index(drop = True)

55 return AllArticle

57url = 'https://www.bilibili.com/bangumi/media/md102392/?from=search&seid=8935536260089373525#short'

58result = getComment(url)

59#result.to_csv('工作细胞爬虫.csv',index = False)

这种方法爬取失败之后，一直不知道该怎么处理，刚好最近看到网上有大神爬猫眼评论的文章，照葫芦画瓢尝试了一下，居然成功了，而且爬的速度也很快，十来分钟就全爬完了，思路是找到评论对应的Json文件，然后获取Json中的数据，过程如下。

在Google浏览器中按 F12 打开卡发者工具后，选择 Network

往下滑动，会发现过一段时间，会出现一个 fetch ，右键打开后发现，里面就是20条记录，有所有我们需要的内容，json格式。

所以现在需要做的就是去找这些json文件的路径的规律。多看几条之后，就发现了规律：

第一个json：

https://bangumi.bilibili.com/review/web_api/short/list? media_id=102392&folded=0&page_size=20&sort=0

第二个json：

https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0&cursor=76553500953424

第三个json：

https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0&cursor=76549205971454

显然所有的json路径的前半部分都是一样，都是在第一条json之后加上不同的cursor = xxxxx，所以只要能找到 cursor 值的规律，就可以用循环的办法，爬完所有的json，这个值看上去没什么规律，最后发现，每一个json路径中cursor值就藏在前一个json的最后一条评论中

在python中可以直接把json转成字典，cursor值就是最后一条评论中键cursor的值，简直不要太容易。

所以爬的思路就很清晰了，从一个json开始，爬完20条评论后，获取最后一个评论中的cursor值，更改路径之后获取第二个json，重复上面的过程，直到爬完所有的json。

至于如何知道爬完了所有json，也很容易，每个json中一个 total键 ，表示了当前一共有多少条评论，所以只需要写一个while循环，当爬到的评论数达到total值时停止。

爬的过程中还发现，有些json中的评论数不够20条，如果每次用20去定位，中间会报错停止，需要注意一下。所以又加了一行代码，每次获得json后，通过 len() 函数得到当前json中一共包含多少条评论，cursor在最后一个评论中。

以上是整个爬的思路，我们最终爬到以下信息

作者

author

评分/星级

score

不喜欢

disliked

likes

这个全0，没用

liked

时间

ctime

content

cursor

状态

last_ep_index

需要说明的地方，一个是 liked 按照字面意思应该是用户的点赞数,但爬完才发现全是0，没有用。另一个是关于时间，里面有 ctime 和 mtime 两个跟时间有关的值，看了几个，基本都是一样的，有个别不太一样，差的不多，就只取了ctime，我猜可能一个是点击进去的时间，一个是评论提交时间，但没法验证，就随便取一个算了，ctime的编码很奇怪，比如某一个是ctime = 1540001677，渣渣之前没有见过这种编码方式，请教了大佬之后知道，这个是Linux系统上的时间表示方式，是1970年1月1日0时0分0秒到当时时点的秒数，python中可以直接用 time.gmtime() 函数转化成年月日小时分钟秒的格式。还有 last_ep_index 里面存的是用户当前的看剧状态，比如看至第13话，第6话之类的，但后来发现很不准，绝大多数用户没有 last_ep_index 值，所以也没有分析这个变量。

代码如下

1import requests

2from fake_useragent import UserAgent

3import json

4import pandas as pd

5import time

6import datetime

7headers = { "User-Agent": UserAgent(verify_ssl=False).random}

8comment_api = 'https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0'

10# 发送get请求

11response_comment = requests.get(comment_api,headers = headers)

12json_comment = response_comment.text

13json_comment = json.loads(json_comment)

15total = json_comment['result']['total']

17cols = ['author','score','disliked','likes','liked','ctime','score','content','last_ep_index','cursor']

18dataall = pd.DataFrame(index = range(total),columns = cols)

21j = 0

22while j

23 n = len(json_comment['result']['list'])

24 for i in range(n):

25 dataall.loc[j,'author'] = json_comment['result']['list'][i]['author']['uname']

26 dataall.loc[j,'score'] = json_comment['result']['list'][i]['user_rating']['score']

27 dataall.loc[j,'disliked'] = json_comment['result']['list'][i]['disliked']

28 dataall.loc[j,'likes'] = json_comment['result']['list'][i]['likes']

29 dataall.loc[j,'liked'] = json_comment['result']['list'][i]['liked']

30 dataall.loc[j,'ctime'] = json_comment['result']['list'][i]['ctime']

31 dataall.loc[j,'content'] = json_comment['result']['list'][i]['content']

32 dataall.loc[j,'cursor'] = json_comment['result']['list'][n-1]['cursor']

33 j+= 1

34 try:

35 dataall.loc[j,'last_ep_index'] = json_comment['result']['list'][i]['user_season']['last_ep_index']

36 except:

37 pass

39 comment_api1 = comment_api + '&cursor=' + dataall.loc[j-1,'cursor']

40 response_comment = requests.get(comment_api1,headers = headers)

41 json_comment = response_comment.text

42 json_comment = json.loads(json_comment)

44 if j % 50 ==0:

45 print('已完成 {}% !'.format(round(j/total*100,2)))

46 time.sleep(0.5)

50dataall = dataall.fillna(0)

52def getDate(x):

53 x = time.gmtime(x)

54 return(pd.Timestamp(datetime.datetime(x[0],x[1],x[2],x[3],x[4],x[5])))

56dataall['date'] = dataall.ctime.apply(lambda x:getDate(x))

58dataall.to_csv('bilibilib_gongzuoxibao.xlsx',index = False)

03影评分析

最终一共爬到了 17398 条影评数据。里面的date是用ctime转过来的，接下来对数据进行一些分析，数据分析通过python3.6完成，代码后台回复" 工作细胞 "可得

评分分布

评分取值范围为2、4、6、8、10分，对应1-5颗星

可以看出，几乎所有的用户都给了这部动漫五星好评，影响力可见一斑。

评分时间分布

将这部动漫从上线至今所有的评分按日进行平均，观察评分随时间的变化情况

可以看出，评分一直居高不下，尤其起始和结束时都接近满分，足见这是一部良好开端、圆满结束的良心作品。

每日评论数

看完评分之后，再看看评论相关的数据，我最感兴趣的是，这些评论的时间分布是怎么样的，统计了每一日的评论数之后，得到了评论数的分布图

基本上是每出了新的一话，大家看完后就会在短评中分享自己的感受，当然同样是起始和结束阶段的评论数最多，对比同期的百度指数

评论日内分布

除了每日的评论数，也想分析一下评论的日内趋势，用户都喜欢在每日的什么时间进行评论？将评论分24个小时求和汇总后，得到了下图

不过这个结果就不是很理想了，横轴是时间，纵轴是评论数，中午到下午的趋势上升可以理解，晚上七八点没有人评论反倒是凌晨三四点评论数最多，这个就很反常了，可能是评论在系统中上线的时间有一定偏差？

好评字数

此外还想分析一下，是否点赞数多的，一定是写的字数越多的？因为文章中大部分的评论是没有点赞的，所以这里中统计了有点赞（likes>0）的评论点赞数和评论字数的数据。由于有一条评论字点赞数太多，严重偏离整体趋势，所以做了对数图进行观察。

整体来看，似乎没什么关系，大量字数1-100不等的，点赞数都为1，点赞数大于5的部分有一定的正相关性，说明评论不仅要看数量，还要看质量，写出了大家的心声，大家才会使劲点赞。

评论分析TF-IDF

分析完基础数据后，想更深入挖掘一下评论信息，大家都说了些什么？为什么这部剧这么受欢迎？也许都能在评论中找到答案。

jieba分词、去除停止词、计算词频和TF-IDF的过程不表，与之前两篇文章类似。我们提取了重要性前500的词，这里展示部分

血小板高居首位，毕竟大家对萌萌哒事物都是没什么抵抗力的。

词语中也存在一些意义不大的词，前期处理不太到位。不过从这些词云中还是可以看出很多东西，为什么这部剧如此受欢迎？这里通过分词可以得到以下三个解释：

1. 题材好：科普类动漫，老少皆宜

评论中提到了科普、生物、题材等词，还有各种细胞。区别于一般科普向动漫受众低幼的问题，这部番的受众年龄比较广泛。因为所涉及到的知识并不算过于常识。动漫中，每一话，身体的主人都会生一场病，每次出现新的细胞和病毒出现时，都会对他们的身份有比较详细和准确的介绍

这种形式寓教于乐，同时战斗的过程也充分地体现了每种细胞的特性。例如，前期因为战斗力弱而被别的细胞瞧不起的嗜酸性粒细胞，在遇到寄生虫的时候大放异彩。可以说，每一种细胞爆种都爆得都有理有据。

2. 人设好

这部番把几乎人体所有的细胞拟人化：红细胞、白细胞、血小板、巨噬细胞等。每一种细胞都有比较独特的设定，从御姐到萝莉，从高冷到话痨。十几个出场的主要人物都各自有立得住的萌点。满足各种口味的需求。

3. 制作精良

这一点是毋庸置疑的，好的人设好的题材，如果没有好的制作，都是白谈，评论中也有很多人提到了“声优”、“配音”等。

当然一部剧能够火，不仅仅是这么简单的原因，这里所说的，只是从数据可以看出的，观众的直观感受。

最后我们以萌萌哒血小板词云作为文章的结尾。

注：再次说明源码在后台回复“ 工作细胞 ”可得，不要再到后台问我有没有源码，喜欢请点赞

爬取一万条9.7评分的电影！你知道是啥电影吗？这部电影确实好看
作者：量化小白H 7月番《工作细胞》最终话在十一前放出。这部动漫在b站上评分高达9.7。除了口碑之外，热度也居高不...
爬虫：豆瓣电影图书音乐Top250
爬取目标豆瓣电影 Top 250 >> 电影名,导演,年份,制片地区,电影分类,豆瓣评分,评论人数,描述 <<...
TOP250影评数据分析之《Jsoup实现Java爬虫》
一、课程目标利用Jsoup爬取豆瓣TOP电影网站的电影信息：电影链接、电影名称、电影评分、电影评价人数。二、主...
Scrapy抓取豆瓣电影TOP250
目标站点：提取结构化条目（电影排名、电影名称、电影评分、电影评价人数）：iterms.py 爬取源码：spide...
电影推荐
推荐两部很棒的电影，看完之后感触很大，《肖申克的救赎》这部电影的评分在9.7获得很高的评价。 ...
正则表达式Python案例（2）-爬取豆瓣电影Top250
通过Python代码实现爬取豆瓣电影Top250的电影列表，包括序号、电影名称、评分以及评论人数，并保存到文件...
连看两场《摔跤吧！爸爸》，有什么感想？
近日电影《摔跤吧！爸爸》刷爆网络，网上评分达到9.7分，可见这电影何其好看，自然而然地去影院观看，其主演是阿米尔·...
今日份荐影：《横道世之介》
突然晚上想看电影了，去网上找找有什么电影好看，看到有人说这部电影很治愈，评分有8.8，那么我就选择了这部电影，打发...
自由不死，摇滚不灭。这帮DJ玩大了！
今日推荐《海盗电台》讲真的，这部电影确实很不错！豆瓣评分能上到8.6分，拍进豆瓣225名，就知道这部电影的不俗...
国产电影经典之作，至今无人超越
你知道在豆瓣上评分最高的国产电影是哪部吗?就是这部由七十多万人打出9.5分的电影，豆瓣电影排行榜排行第二。如果...

爬取一万条9.7评分的电影！你知道是啥电影吗？这部电影确实好看

相关文章

爬取一万条9.7评分的电影！你知道是啥电影吗？这部电影确实好看

爬虫：豆瓣电影图书音乐Top250

TOP250影评数据分析之《Jsoup实现Java爬虫》

Scrapy抓取豆瓣电影TOP250

电影推荐

正则表达式Python案例（2）-爬取豆瓣电影Top250

连看两场《摔跤吧！爸爸》，有什么感想？

今日份荐影：《横道世之介》

自由不死，摇滚不灭。这帮DJ玩大了！

国产电影经典之作，至今无人超越

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python新世界