美文网首页
特征工程(二)

特征工程(二)

作者: 士多啤梨苹果橙_cc15 | 来源:发表于2017-08-14 17:12 被阅读0次

    特征处理:

       1. 数值型

       2. 类别型

       3. 时间类

       4. 文本型

       5. 统计型

       6. 组合特征

    ---1. 数值型

    --------幅度调整/归一化(年龄、销售量)

    --------统计值max、min、mean、std(波动情况,方差)(最高最低消费---消费能力)

    --------离散化(price分段  pd.cut)柱状分布 | 直方图统计 | 不一定均匀切分| 可能在密度高的地方进行频次 切分

    --------Hash分桶

    --------每个类别下对应的变量统计值histogram(分布状况)

    ---------数值型-->类别型

    python-pandas数据处理包

    ---2. 类别型

    -----1. one-hot编码 

    ------2. 哑编码

    ------3. Hash与聚类处理

    小技巧:统计每个类别变量下各个target比例,转成数值型

    histogram映射

    比如第一个特征性别,首先看target(爱好)的取值空间{足球、散步、看电视剧},总共有三个男生,有两个喜欢足球

     足球  散步 看电视剧

    男[2/3,1/3,0] 意义:有这么一个群体叫做男,有2/3喜欢足球,有1/3喜欢散步,没有人喜欢看电视剧。【可以看作自己添加的维度】

    好处:把target和特征的后验概率联系起来

    ---3.时间型(电商里用的频繁)

    时间型既可以看作是连续值也可以看作是离散值

    ------1)连续值:持续时间(单页浏览时长->喜好程度,购买倾向性)间隔时间(上次购买/点击离现在的时间->消耗品)

    ------2)离散值(离散化->找完备集):a)按小时时间段(hour_0-23)

                                  b)一周中天数(星期一、星期二)

                                  c)一年哪几个星期

                                  d)工作日/周末

    举例:预测哪一个顾客会成为常客(用途根据不同的顾客划分,给予不同的优惠)

    顾客购买记录

    对于时间戳特征:除了能够拿到年月日(连续值),还能根据日历(一些离散值)判断出星期几,是一年当中的第几个星期(和季节有关),一天当中的第几个小时(早中晚(与外卖相关))

    年月日-->节假日和购物的关系,用户的节假日喜好(造出离双十一还有多少天、节假日过去了多少天)全靠脑洞

    购物的话平时和周末有差别

    ----4. 文本型

     -- 词袋

    文本数据预处理后,去掉停用词,剩下的次组成的list在词库中的映射稀疏向量

    词袋

    hash技巧--bucket{领域词集}

    比如bucket1=体育,bucket2=医学

    将不同的语句在不同领域背景下转换成向量

    ----把词袋扩充成n-gram

    原因-->顺序无关

    举例:无法区别“我讨厌你”,“你讨厌我”

    2-gram["我讨厌",“讨厌你”,“你讨厌”,“讨厌我”]

    区分就变强了

    ------统计方法TF-idf特征

    给每个词编码一个权重,用于评估某个语料集某个词的重要程度。字词的重要性会随着它在文件中出现的次数正比增长(特征),但是会随着在语料中出现的频率成反比下降(普适)

    -----深度学习:词袋-->word2vec

    向量不再是0-1,而是连续值(表示不同词之间的关系)

    比如(国王--女王)(男人--女人)两个向量对之间的关系是近似的

    再比如(柏林--德国)(东京--日本)那么柏林到德国的距离和东京到日本的距离是相当的

    ------5. 统计特征(与业务贴合很高)

    历届的kaggle/天池比赛,天猫/京东排序和推荐业务线里模型用到的特征

    ---加减平均:商品价格高于平均价格多少,用户在某个品类下消费超过平均用户多少?用户连续登陆天数超过平均多少

    ---分位线: 商品属于售出商品价格的多少分位线处

    ----次序型:排位

    ---比例类:电商中,好/中/差评的比例

                      你已超过全国百分之...的同学

    举例:天池大数据之移动推荐算法大赛

    特征处理举例

    1)前一天的购物商品很有可能第二天就被购买==>规则

    2)剔除掉在30天里从来不买东西的人  ==>数据清洗

    3) 加车N件,只买了一件的,剩余的不会买 ==>规则

    4)购物车购买的转化率 ==>用户维度统计特征

    5)  商品热度  ==> 商品维度统计特征

    6) 对不同的item点击/收藏/购物车/购买的总计 ==>商品维度统计

    7) 对不同item点击/收藏/购物车/购买平均每个user的计数 ==> 用户维度统计

    8) 变热门的品牌/商品 ==> 商品维度统计特征(差值型)

    9)最近1/2/3/7天的行为数与平均行为数的比值 ==>用户维度统计特征(比例型)

    10)商品在类别中的排序 ==>商品统计特征(次序型)

    11)商品交互的总人数 ==>商品维度统计特征(求和)

    12) 商品的购买转化率及转化率与类别平均转化率的比值=>商品维度统

    计特征(比例型)

    (13) 商品行为/同类同行为均值=>商品维度统计特征(比例型)

    (14) 最近1/2/3天的行为(按4类统计)=>时间型+用户维度统计特征

    (15) 最近的交互离现在的时间=>时间型

    (16) 总交互的天数=>时间型

    (17) 用户A对品牌B的总购买数/收藏数/购物车数=>用户维度统计特征

    (18) 用户A对品牌B的点击数的平方 =>用户维度统计特征

    (19) 用户A对品牌B的购买数的平方=>用户维度统计特征

    (20) 用户A对品牌B的点击购买比=>用户维度统计特征(比例型)

    (21) 用户交互本商品前/后,交互的商品数=>时间型+用户维度统计特征

    (22) 用户前一天最晚的交互行为时间=>时间型

    (23) 用户购买商品的时间(平均,最早,最晚)=>时间型

    ----6. 组合特征

     ----简单组合特征:拼接型 10002(用户id)&& 男士牛仔

    实际电商点击率预估中:

    正负权重,喜欢&&不喜欢某种类型

    ---模型组合特征

    1. 用GBDT产出特征组合路径

    2. 组合特征和原始特征一起放进LR训练

    3. 最早facebook使用的方式,多家互联网公司在用

    相关文章

      网友评论

          本文标题:特征工程(二)

          本文链接:https://www.haomeiwen.com/subject/wbacrxtx.html