美文网首页
Task 7 综合练习

Task 7 综合练习

作者: 陈易男 | 来源:发表于2021-01-01 19:46 被阅读0次

    数据集下载地址:https://gitee.com/lbwnb_lbwnb/learning_pandas_data.git

    任务一 企业收入的多样新

    task 1

    首先使用describe查看两表的数据大体情况,可以看出company.csv中日期是从2008年到2017年,company_data.csv中日期是从2008年到2016年。所以2017年的收入熵指标我们是无法计算的。
    然后,将df1的证券代码的数据类型由str转为int,方便索引。

    describe of df1
    describe of df2
    df1 = pd.read_csv('company.csv')
    df1.head()
    # 获得要计算公司的证券代码
    df1_op = df1.copy()
    df1_op.证券代码 = df1.证券代码.apply(lambda x: int(x[1:]))
    index = df1_op.loc[df1_op.日期<=2016]
    company = index.证券代码.to_list()
    date = index.日期.to_list()
    

    接着,我们对数据做一点处理,去除无效的nan数据,并把日期转换成年的表示方式

    # 读取数据
    df2 = pd.read_csv('company_data.csv')
    # 删除nan数据
    df2 = df2.dropna(how='any')
    # 日期转换
    df2['日期'] = df2['日期'].apply(lambda x: int(x[:4]))
    df2.describe()
    

    接着,从company_data.csv选出我们所需要的数据,使用company.csv的证券代码和日期作为多级index选出我们需要的数据。

    # 筛选出所需公司的数据
    idx = pd.MultiIndex.from_arrays(index.values.T)
    df2 = df2.set_index(['证券代码','日期']).loc[list(idx)].reset_index()
    

    最后一步,就是使用groupby对数据进行分组,并编写自定义的函数传入apply中对group进行处理,计算企业的收入熵指标,然后加入表中

    group = df2.groupby(['证券代码','日期'])['收入额']
    # 计算收入熵指标
    def compute(x):
        _sum = x.sum()
        p_x = x / x.sum()
        return -(p_x * np.log(p_x)).sum()
    result = group.apply(compute)
    # 写入df1
    df1['I'] = np.nan
    df1.loc[df1.日期 <=2016, 'I'] = result.values
    df1.head()
    
    计算结果

    任务二 组队学习信息表的变换

    task 2

    使用宽表表长表的方式对表格进行变换

    df_melt1=df.melt(id_vars = ['所在群', '队伍名称'],
                    value_vars = [ '队长编号', '队员1 编号', '队员2 编号','队员3 编号', '队员4 编号', '队员5 编号', '队员6 编号',  '队员7 编号', '队员8 编号','队员9 编号','队员10编号'],
                    var_name = '是否队长',
                    value_name = '编号')
    
    df_melt2=df.melt(id_vars = ['所在群', '队伍名称'],
                    value_vars = [ '队长_群昵称', '队员_群昵称','队员_群昵称.1',  '队员_群昵称.2', '队员_群昵称.3','队员_群昵称.4','队员_群昵称.5', '队员_群昵称.6','队员_群昵称.7','队员_群昵称.8','队员_群昵称.9'],
                    var_name = '昵称类型',
                    value_name = '昵称')
    
    df_melt1['是否队长']=df_melt1['是否队长'].apply(lambda x: 1 if x=='队长编号' else 0)
    df_result=pd.concat([df_melt1,df_melt2[['昵称']]],axis=1)
    df_result=df_result[['是否队长','队伍名称','昵称','编号']]
    df_result.sort_values(by=['队伍名称','是否队长'],ascending=False,inplace=True)
    df_result.dropna(inplace=True)
    df_result['编号']=df_result['编号'].astype(int)
    df_result.head()
    
    result

    任务三 美国大选投票情况

    task 3

    首先读入文件

    # 读取文件
    df1 = pd.read_csv('county_population.csv')
    df1.head()
    df2 = pd.read_csv('president_county_candidate.csv')
    

    将df1中的US County转化为state+county的形式,和df2保持一致

    # 转换为state + county
    df1['county'] = df1['US County'].apply(lambda x: x.split(',')[0][1:])
    df1['state'] = df1['US County'].apply(lambda x: x.split(',')[-1][1:])
    df1 = df1.drop(columns=['US County'])
    df1.head()
    
    df1
    • 第一小问

    然后以df1的state和county作为index,计算出每个县的投票率,但是df2中的county不是和df2中一一对应的,所以要把没有同时出现在df1和df2中的county mask掉

    index = pd.MultiIndex.from_arrays(df1[['state', 'county']].values.T)
    df2_group = df2.groupby(['state','county'])['total_votes']
    df2_index = df2_group.groups.keys()
    index_in_df2 = index.isin(df2_index)
    Population = df1.loc[index_in_df2, 'Population'].values
    total_votes = df2_group.sum()
    a = pd.DataFrame(total_votes)
    total_votes = a.loc[index[index_in_df2].to_list(), 'total_votes'].values
    df1['vote_rate'] = np.nan
    # 计算每个县的投票率
    df1.loc[index_in_df2, 'vote_rate'] =  total_votes/ Population 
    # 找出大于0.5的县的数量
    (df1['vote_rate'] > 0.5).sum()
    

    最后结果是1434

    • 第二小问

    首先获取candidate的全国总票数,然后使用sort_values对name进行排名,使用pivot_table对df2进行变换,并将nan值填充为0

    # 获取候选人全国总票数
    candidate = df2.groupby('candidate')['total_votes'].sum()
    # 投票人作为列名
    name = candidate.sort_values(ascending=False).index.to_list()
    # 排名
    df2_op = df2[['state','candidate', 'total_votes']].pivot_table(index='state', columns='candidate', values='total_votes', aggfunc='sum')
    # 按照候选人全国总票数排名
    df2_op = df2_op.loc[:,name].fillna(0)
    df2_op.head()
    
    候选人州排名
    • 第三小问

    对candidate和total_votes按照state和county进行分组,依次计算每个county的BT指标

    # 计算BT指标
    def get_BT(group):
        data = group.set_index('candidate')
        _sum = data['total_votes'].sum()
        if _sum == 0:
            return np.nan
        else:
            B = data.loc['Joe Biden', 'total_votes'] / _sum
            T = data.loc['Donald Trump', 'total_votes'] / _sum
        return B - T
    BT = df2_group.apply(get_BT)
    

    对计算出的结果按照state进行分组,判断当前州是否属于拜登州

    BT = BT.reset_index()
    BT = BT.rename(columns={0:'BT'})
    BT_group = BT.groupby(['state'])['BT']
    def get_Biden_State(group):
        if group.median() >0:
            return True
        else:
            return False
    Biden_State = BT_group.apply(get_Biden_State)
    Biden_State = Biden_State.index[Biden_State].to_list()
    Biden_State
    
    result

    相关文章

      网友评论

          本文标题:Task 7 综合练习

          本文链接:https://www.haomeiwen.com/subject/fiwjoktx.html