美文网首页我爱编程
Python学习:JData入门小程序解析(续)

Python学习:JData入门小程序解析(续)

作者: 一个三要不起 | 来源:发表于2018-04-08 20:24 被阅读0次

    接着上一篇文章:

    第二个.py文件是explore_data.py

    它实现的功能很简单,就是简单的处理NEW_USER_FILE,他的内容如下:


    • user_id 用户ID 脱敏
    • age 年龄段 -1表示未知
    • sex 性别 0表示男,1表示女,2表示保密
    • user_lv_cd 用户等级有顺序的级别枚举,越高级别数字越大
    • user_reg_tm 用户注册日期粒度到天

    可以看到"age"的内容是数字+中文的,这样不便于处理,explore_data.py的功能就是把"age"的内容进行映射,其映射规则如下:

    def convert_age(age_str):
        if age_str == u'-1':
            return -1
        elif age_str == u'15岁以下':
            return 0
        elif age_str == u'16-25岁':
            return 1
        elif age_str == u'26-35岁':
            return 2
        elif age_str == u'36-45岁':
            return 3
        elif age_str == u'46-55岁':
            return 4
        elif age_str == u'56岁以上':
            return 5
        else:
            return -1
    

    函数的调用方式如下:

    def tranform_user_age():
        # Load data, header=0 means that the file has column names
        df = pd.read_csv(USER_FILE, header=0, encoding="gbk")
    
        #对df['age']每一个元素都进行convert_age函数处理
        df['age'] = df['age'].map(convert_age)
        df['user_reg_tm'] = pd.to_datetime(df['user_reg_tm'])
        min_date = min(df['user_reg_tm'])
    
        df['user_reg_diff'] = [i for i in (df['user_reg_tm'] - min_date).dt.days]
    
        df.to_csv(NEW_USER_FILE, index=False)
    

    可以看到在map()中调用了convert_age,它会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。

    最后得到的NEW_USER_FILE是这样的:


    第三个.py文件是create_user_table.py

    它的功能和create_item_table.py的差不多,create_item_table.py是对商品数据特征统计分析,而create_user_table.py是对用户数据特征统计分析。

    运行create_user_table.py的前提是先运行explore_data.py生成NEW_USER_FILE,其过程与create_item_table.py很是相似,这里就不再多说了,merge_action_data()后生成的表的内容如下:

    然后同样让user_base与user_behavior进行左连接运算,最后得到这样的一张表:

    接下来就可以进行数据清洗了和数据分析了

    数据清洗:

    这一步骤作者的清洗策略只在data_cleaning.ipynb中有说明,并没有写在data_cleaning.py中,大家可以使用自己的清洗策略,比如去除掉浏览数为0的僵尸用户什么的。

    数据分析:

    作者介绍了一些分析的方法:

    周一到周日各天购买情况:

    def merge_weekday_action_data():
        df_ac = []
        df_ac.append(get_from_action_data(fname=ACTION_201602_FILE))
        df_ac.append(get_from_action_data(fname=ACTION_201603_FILE))
        df_ac.append(get_from_action_data(fname=ACTION_201603_EXTRA_FILE))
        df_ac.append(get_from_action_data(fname=ACTION_201604_FILE))
    
        df_ac = pd.concat(df_ac, ignore_index=True)
        # data type
        print(df_ac)
        print(df_ac.dtypes)
        # Monday = 0, Sunday = 6
        df_ac['time'] = pd.to_datetime(
            df_ac['time']).apply(lambda x: x.weekday() + 1)
    
        df_user = df_ac.groupby('time')['user_id'].nunique()
        # df_ac = pd.DataFrame({'weekday': df_ac.index, 'user_num': df_ac.values})
        df_user = df_user.to_frame().reset_index()
        df_user.columns = ['weekday', 'user_num']
        print(df_user)
    
        df_item = df_ac.groupby('time')['sku_id'].nunique()
        df_item = df_item.to_frame().reset_index()
        df_item.columns = ['weekday', 'item_num']
        print(df_item)
    
        df_ui = df_ac.groupby('time', as_index=False).size()
        df_ui = df_ui.to_frame().reset_index()
        df_ui.columns = ['weekday', 'user_item_num']
        print(df_ui)
    
        bar_width = 0.2
        # 透明度
        opacity = 0.4
    
        plt.bar(df_user['weekday'], df_user['user_num'], bar_width,
                alpha=opacity, color='c', label='user')
        plt.bar(df_item['weekday'] + bar_width, df_item['item_num'],
                bar_width, alpha=opacity, color='g', label='item')
        plt.bar(df_ui['weekday'] + bar_width * 2, df_ui['user_item_num'],
                bar_width, alpha=opacity, color='m', label='user_item')
    
        plt.xlabel('weekday')
        plt.ylabel('number')
        plt.title('A Week Purchase Table')
        plt.xticks(df_user['weekday'] + bar_width * 3 / 2., (1, 2, 3, 4, 5, 6, 7))
        plt.tight_layout()
        plt.legend(prop={'size': 9})
        plt.show()
    

    输出结果:


    可以看到一周用户购买数量分布相对比较均衡,周六周日购买数相对较少,可能是此时大家都去过周末玩了,而平时可以逛京东作为消遣。

    也可以按月分析:

    def month_action_data_statistic():
        # 二月
        df_ac = get_from_action_data(fname=ACTION_201602_FILE)
        df_ac['time'] = pd.to_datetime(df_ac['time']).apply(lambda x: x.day)
    
        df_user = df_ac.groupby('time')['user_id'].nunique()
        df_user = df_user.to_frame().reset_index()
        df_user.columns = ['day', 'user_num']
    
        df_item = df_ac.groupby('time')['sku_id'].nunique()
        df_item = df_item.to_frame().reset_index()
        df_item.columns = ['day', 'item_num']
    
        df_ui = df_ac.groupby('time', as_index=False).size()
        df_ui = df_ui.to_frame().reset_index()
        df_ui.columns = ['day', 'user_item_num']
        bar_width = 0.2
        # 透明度
        opacity = 0.4
        # 天数
        day_range = range(1, len(df_user['day']) + 1, 1)
        # 设置图片大小
        plt.figure(figsize=(14, 10))
    
        plt.bar(df_user['day'], df_user['user_num'], bar_width,
                alpha=opacity, color='c', label='user')
        plt.bar(df_item['day'] + bar_width, df_item['item_num'],
                bar_width, alpha=opacity, color='g', label='item')
        plt.bar(df_ui['day'] + bar_width * 2, df_ui['user_item_num'],
                bar_width, alpha=opacity, color='m', label='user_item')
    
        plt.xlabel('day')
        plt.ylabel('number')
        plt.title('February Purchase Table')
        plt.xticks(df_user['day'] + bar_width * 3 / 2., day_range)
        # plt.ylim(0, 80)
        plt.tight_layout()
        plt.legend(prop={'size': 9})
        plt.show()
    

    输出结果:

    分析: 从上面可以发现,在2月6号到2月10号之间是我们的农历新年,快递在这几天不上班,因而购物数量相对较少,在我们实际分析时, 可以暂时将这部分数据作为异常数据不去考虑,不加入我们的训练样本中.

    查看特定用户对特定商品的活动轨迹:

    def spec_ui_action_data(fname, user_id, item_id, chunk_size=100000):
        reader = pd.read_csv(fname, header=0, iterator=True)
        chunks = []
        loop = True
        while loop:
            try:
                chunk = reader.get_chunk(chunk_size)[
                    ["user_id", "sku_id", "type", "time"]]
                chunks.append(chunk)
            except StopIteration:
                loop = False
                print("Iteration is stopped")
    
        df_ac = pd.concat(chunks, ignore_index=True)
        df_ac = df_ac[(df_ac['user_id'] == user_id) & (df_ac['sku_id'] == item_id)]
    
        return df_ac
    
    def explore_user_item_via_time():
        user_id = 230678
        item_id = 112141
        df_ac = []
        df_ac.append(spec_ui_action_data(ACTION_201602_FILE, user_id, item_id))
        df_ac.append(spec_ui_action_data(ACTION_201603_FILE, user_id, item_id))
        df_ac.append(spec_ui_action_data(
            ACTION_201603_EXTRA_FILE, user_id, item_id))
        df_ac.append(spec_ui_action_data(ACTION_201604_FILE, user_id, item_id))
    
        df_ac = pd.concat(df_ac, ignore_index=False)
        print(df_ac.sort_values(by='time'))
    

    可以看到230678用户对112141商品有过如下行为:


    type

    • 1.浏览(指浏览商品详情页);
    • 2.加入购物车;
    • 3.购物车删除;
    • 4.下单;
    • 5.关注;
    • 6.点击

    可以看到该用户对该商品从2016-03-25 16:17:27开始反复的点击、浏览,并于2016-03-31 23:59:00下单购买该商品,随后又对其进行了反复的点击、浏览。

    以上都是本萌新的个人理解,如有错误欢迎指出。

    参考:
    https://blog.csdn.net/liuhuoxingkong/article/details/70049019
    https://github.com/daoliker/JData
    https://apachecn.github.io/pandas-doc-zh/10min.html

    相关文章

      网友评论

        本文标题:Python学习:JData入门小程序解析(续)

        本文链接:https://www.haomeiwen.com/subject/zfkuhftx.html