Python作业要交一份爬虫和数据分析,由于平时Python课讲的都是各种方法,讲的实在太多,笔记又记不住,于是就放弃了思考。
期末作业是交自学的爬虫,将爬出的数据做一次数据分析,在B站自学的爬虫足够已经学会用,但是迎合我的需求的话需要改动的地方实在不少。
我爬的是Bangumi上的番剧列表,因为Bangumi的番剧相对较全,而B站仅仅只有它自己已经购买版权的番剧信息。第一次爬的是Bangumi上的番剧排行榜,爬下来的数据大概6800多条,觉得够了,于是开始做数据清洗,需要清洗的内容首先是爬取的info列,info里包含了集数,番剧上映日期,与部分制作人员,需要对这些进行分割,首先遇到的问题就是有一些番剧的info中,没有写一共有多少话,经过一番查找,没写多少画的都是没完结的,于是通过正则判断将没有写集数的添加上未完结。第二个问题便是日期格式问题,大部分是xx年xx月xx日格式,还有一部分是xx/xx/xx,xx-xx-xx。通过网络查找找到了转化标准日期格式解决方法,但是并不完全适用那少部分的格式,仍旧需要修改,通过干掉脑细胞最终解决了这个问题。将数据可视化后发现,数据量还是太少,结果与预期偏差太大,于是决定扩展数据量。
这次将目光放在了所有番剧上,Bangumi上的排行榜知识一部分番剧,再次爬取过程中发现了额外情况,有些番剧介绍它没有图片,有些番剧评价人数少于10,没有评分等等,还得加上判断,最终得到了18000多条数据,进行数据清洗,发现了更多的例外情况,比如更多离谱的日期格式等等,头疼的不行,于是我再次投身改代码中,最后清洗后的数据,,只剩,,9000多条,,,我*,一大波操作下来发现并没有增加太多数据量,但令我欣慰的是,可视化的折线图上比上次好的太多了。
网友评论