2018科大讯飞AI营销算法大赛[1]

作者: FeistMa | 来源:发表于2018-09-14 12:18 被阅读16次

    题目背景


    本次大赛提供了讯飞AI营销云的海量广告投放数据,参赛选手通过人工智能技术构建预测模型预估用户的广告点击概率,即给定广告点击相关的广告、媒体、用户、上下文内容等信息的条件下预测广告点击概率。希望通过本次大赛挖掘AI营销算法领域的顶尖人才,共同推动AI营销的技术革新。

    基本数据
    字段 解释
    instance_id 样本id
    click 是否点击
    广告信息
    字段 解释
    adid 广告id
    advert_id 广告主id
    orderid 订单id
    advert_industry_inner 广告主行业
    advert_name 广告主名称
    campaign_id 活动id
    creative_id 创意id
    creative_type 创意类型
    creative_tp_dnf 样式定向id
    creative_has_deeplink 响应素材是否有deeplink(Boolean)
    creative_is_jump 是否是落页跳转(Boolean)
    creative_is_download 是否是落页下载(Boolean)
    creative_is_js 是否是js素材(Boolean)
    creative_is_voicead 是否是语音广告(Boolean)
    creative_width 创意宽
    creative_height 创意高
    媒体信息
    字段 解释
    app_cate_id app分类
    f_channel 一级频道
    app_id 媒体id
    inner_slot_id 媒体广告位
    app_paid app是否付费
    用户信息
    字段 解释
    user_tags 用户标签信息,以逗号分隔
    上下文信息
    字段 解释
    city 城市
    carrier 运营商
    time 时间戳
    province 省份
    nnt 联网类型
    devtype 设备类型
    os_name 操作系统名称
    osv 操作系统版本
    os 操作系统
    make 品牌(例如:apple)
    model 机型(例如:"iphone")

    初探数据


    让我们先来看看数据,在data下面round1_iflyad_train.txt和round1_iflyad_test_feature.txt分别放着官方给的训练集和测试集

    import numpy as np
    import pandas as pd
    
    data_train_org = pd.read_csv("data/round1_iflyad_train.txt",sep='\t');
    data_test_org = pd.read_csv("data/round1_iflyad_test_feature.txt",sep='\t');
    
    data_all = pd.concat([data_train_org, data_test_org],ignore_index=True)
    data_all.info()
    
    <class 'pandas.core.frame.DataFrame'>
    RangeIndex: 1041674 entries, 0 to 1041673
    Data columns (total 35 columns):
    adid                     1041674 non-null int64
    advert_id                1041674 non-null int64
    advert_industry_inner    1041674 non-null object
    advert_name              1041674 non-null object
    app_cate_id              1039376 non-null float64
    app_id                   1039376 non-null float64
    app_paid                 1041674 non-null bool
    campaign_id              1041674 non-null int64
    carrier                  1041674 non-null int64
    city                     1041674 non-null int64
    click                    1001650 non-null float64
    creative_has_deeplink    1041674 non-null bool
    creative_height          1041674 non-null int64
    creative_id              1041674 non-null int64
    creative_is_download     1041674 non-null bool
    creative_is_js           1041674 non-null bool
    creative_is_jump         1041674 non-null bool
    creative_is_voicead      1041674 non-null bool
    creative_tp_dnf          1041674 non-null int64
    creative_type            1041674 non-null int64
    creative_width           1041674 non-null int64
    devtype                  1041674 non-null int64
    f_channel                79777 non-null object
    inner_slot_id            1041674 non-null object
    instance_id              1041674 non-null int64
    make                     938631 non-null object
    model                    1033881 non-null object
    nnt                      1041674 non-null int64
    orderid                  1041674 non-null int64
    os                       1041674 non-null int64
    os_name                  1041674 non-null object
    osv                      1033463 non-null object
    province                 1041674 non-null int64
    time                     1041674 non-null int64
    user_tags                718672 non-null object
    dtypes: bool(6), float64(3), int64(17), object(9)
    memory usage: 236.4+ MB
    

    可以看到部分字段有缺失:

    • f_channel一级频道只有79777
    • user_tags用户标签信息718672

    这两个字段缺失较多

    特征选取


    首先根据经验选取一些基础特征做一个baseline

    • advert_industry_inner:不同行业的广告效果应该是会不一样
    • creative_type:广告创意不同对用户的吸引力会有所不同
    • app_cate_id:app分类可以认为用户对这一类有所偏好,比如玩游戏的用户更加可能点击游戏类广告
    • inner_slot_id:不同位置广告点击率是不一样
    • city:地域性
    • province:地域性
    • carrier:运行商
    • nnt:联网类型
    • devtype:设备类型
    • os_name:操作系统

    缺失处理
    app_cate_id缺失项较少暂时用NULL填充

    def set_missing_value(data):
        data['app_cate_id_full']=data.app_cate_id
        data.loc[data.app_cate_id_full.isnull(),'app_cate_id_full']= "NULL"
        data.drop(['app_cate_id'], axis=1, inplace=True)
    
    def attribute_to_number(data):
        columnNames = [
            'advert_industry_inner',#广告主行业
            'creative_type',#创意类型
            'app_cate_id_full',#app分类
            'inner_slot_id',
            'city',#城市
            'province',#省份
            'carrier',#运营商
            'nnt',#网络
            'devtype',#设备类型
            'os_name'#系统名字
        ]
    
        for name in columnNames:       
            data[name+"_factorize"] = pd.factorize(data[name].values , sort=True)[0] + 1
        data.drop(columnNames, axis=1, inplace=True)
        
        return data
        
    def make_new_feature(data):
        pass
    
    featureNames = [
        #广告信息
        'advert_industry_inner',#广告主行业,效果微弱
        'creative_type',#创意类型
        #媒体信息
        'app_cate_id',#app分类
        'inner_slot_id',#广告位
        #上下文信息
        'city',#城市
        'carrier',#运营商
        'province',#省份
        'nnt',#网络
        'devtype',#设备类型
        'os_name',#系统名字
        'click'
        ]
    data_use = data_all[featureNames].copy()
    set_missing_value(data_use)
    make_new_feature(data_use)
    #编码数据
    data_now = attribute_to_number(data_use)
    data_now.info()
    
    <class 'pandas.core.frame.DataFrame'>
    RangeIndex: 1041674 entries, 0 to 1041673
    Data columns (total 11 columns):
    click                              1001650 non-null float64
    advert_industry_inner_factorize    1041674 non-null int64
    creative_type_factorize            1041674 non-null int64
    app_cate_id_full_factorize         1041674 non-null int64
    inner_slot_id_factorize            1041674 non-null int64
    city_factorize                     1041674 non-null int64
    province_factorize                 1041674 non-null int64
    carrier_factorize                  1041674 non-null int64
    nnt_factorize                      1041674 non-null int64
    devtype_factorize                  1041674 non-null int64
    os_name_factorize                  1041674 non-null int64
    dtypes: float64(1), int64(10)
    memory usage: 87.4 MB
    

    随机森林建模


    data_now.drop(['click'], axis=1, inplace=True)
    data_train = data_now[0:data_train_org.shape[0]][:].copy()
    data_test = data_now[data_train_org.shape[0]:][:].copy()
    y = data_train_org.click
    
    predictors = data_train.columns
    
    from sklearn import model_selection
    from sklearn.ensemble import RandomForestClassifier
    
    alg=RandomForestClassifier(random_state=1,n_estimators=100,min_samples_split=1000,min_samples_leaf=50,n_jobs=-1) 
    kf=model_selection.KFold(n_splits=10,shuffle=False,random_state=1)
     
    scores=model_selection.cross_val_score(alg,data_train[predictors],y,cv=kf)
     
    print(scores)
    print(scores.mean())
    
    [0.80614985 0.80197674 0.80689862 0.80233615 0.80473219 0.80007987
     0.80536115 0.79934109 0.80501173 0.80516148]
    0.8037048869365547
    

    交叉测试分数0.8037感觉还行,那我们就训练模型提交吧!

    alg.fit(data_train[predictors],y)
    result = alg.predict_proba(data_test[predictors])[:,1]
    
    result = pd.DataFrame({ 'instance_id': data_all[data_train_org.shape[0]:].instance_id,'predicted_score':result.astype(np.float32)})
    result.to_csv("result.csv", index=False)
    
    结果

    格式正确,这就去提交啦啦啦!


    成绩

    总结

    第一次写文章难免有点图多字少实在抱歉!其实自己也是机器学习初学者,希望能和大家多多交流学习。
    虽然已经提交了成绩,但这只是一个开始后续还有更多可以做的。

    • 更多特征挖掘
    • 构建新特征
    • 模型融合

    如果有机会我会将后续的更多尝试都写出来。
    由于个人能力有限难免会出现错误之处,还望各位斧正。

    相关文章

      网友评论

      • hfd_efa1:y = data_train_org.click
        请问你这一句是什么意思?给训练集打标签不是这样操作的吧
        FeistMa:取出标签列

      本文标题:2018科大讯飞AI营销算法大赛[1]

      本文链接:https://www.haomeiwen.com/subject/teangftx.html