做爬虫与数据清洗

作者: 日之朝矣 | 来源:发表于2021-06-27 12:16 被阅读0次

做爬虫与数据清洗
自动化测试+爬虫+数据可视化（2）爬虫部分
Python 3爬虫、数据清洗与可视化实
爬虫数据清洗
说实习
爬虫分析之数据存储——基于MySQL,Scrapy
手把手教你完成一个数据科学小项目（3）：数据异常与清洗
手把手教你完成一个数据科学小项目（2）：数据提取、IP查询
手把手教你完成一个数据科学小项目（4）：评论数变化情况
1. 文本处理加速(利用多核优势进行文本的并列处理)

Python作业要交一份爬虫和数据分析，由于平时Python课讲的都是各种方法，讲的实在太多，笔记又记不住，于是就放弃了思考。
期末作业是交自学的爬虫，将爬出的数据做一次数据分析，在B站自学的爬虫足够已经学会用，但是迎合我的需求的话需要改动的地方实在不少。
我爬的是Bangumi上的番剧列表，因为Bangumi的番剧相对较全，而B站仅仅只有它自己已经购买版权的番剧信息。第一次爬的是Bangumi上的番剧排行榜，爬下来的数据大概6800多条，觉得够了，于是开始做数据清洗，需要清洗的内容首先是爬取的info列，info里包含了集数，番剧上映日期，与部分制作人员，需要对这些进行分割，首先遇到的问题就是有一些番剧的info中，没有写一共有多少话，经过一番查找，没写多少画的都是没完结的，于是通过正则判断将没有写集数的添加上未完结。第二个问题便是日期格式问题，大部分是xx年xx月xx日格式，还有一部分是xx/xx/xx，xx-xx-xx。通过网络查找找到了转化标准日期格式解决方法，但是并不完全适用那少部分的格式，仍旧需要修改，通过干掉脑细胞最终解决了这个问题。将数据可视化后发现，数据量还是太少，结果与预期偏差太大，于是决定扩展数据量。
这次将目光放在了所有番剧上，Bangumi上的排行榜知识一部分番剧，再次爬取过程中发现了额外情况，有些番剧介绍它没有图片，有些番剧评价人数少于10，没有评分等等，还得加上判断，最终得到了18000多条数据，进行数据清洗，发现了更多的例外情况，比如更多离谱的日期格式等等，头疼的不行，于是我再次投身改代码中，最后清洗后的数据，，只剩，，9000多条，，，我*，一大波操作下来发现并没有增加太多数据量，但令我欣慰的是，可视化的折线图上比上次好的太多了。