项目背景
你是一名业务分析师顾问,你的客户是一个电影制作新公司,他们将制作一部新电影。客户想确保电影能成功,从而使新公司立足市场。他们希望你能帮助他们了解电影市场趋势,使他们能做出正确的决策。他们提供了指导,希望你能研究以下三大领域:
- 问题 1: 电影类型是如何随着时间的推移发生变化的?
- 问题 2: Universal Pictures 和 Paramount Pictures 之间的对比情况如何?
- 问题 3: 改编电影和原创电影的对比情况如何?
清洗数据
1. 删掉不需要的数据
import pandas as pd
import numpy as np
movies_data = pd.read_csv('movies.csv')
movies_data.drop(['id', 'imdb_id', 'cast', 'homepage', 'director', 'tagline', 'overview', 'runtime', 'release_date', 'vote_count'], axis=1, inplace=True)
2. 去掉缺失值
# 统计缺失值
movies_data.isnull().sum()
popularity 0
budget 0
revenue 0
original_title 0
keywords 1493
genres 23
production_companies 1030
vote_average 0
release_year 0
budget_adj 0
revenue_adj 0
dtype: int64
# 删掉含有缺失值的行
movies_data.dropna(inplace = True)
# 检查缺失值删除效果
movies_data.isnull().sum()
popularity 0
budget 0
revenue 0
original_title 0
keywords 0
genres 0
production_companies 0
vote_average 0
release_year 0
budget_adj 0
revenue_adj 0
dtype: int64
3. 调整数据结构
注:原始数据中 genres, keywords, production_companies 结构如下。
网友评论