特征工程（二）

作者: 士多啤梨苹果橙_cc15 | 来源:发表于2017-08-14 17:12 被阅读0次

特征工程（二）
特征工程（二）——特征选择
2018-04-03-机器学习相关
机器学习之特征工程
使用sklearn做单机特征工程
特征工程
特征工程
特征工程
特征工程
特征工程

特征处理：

1. 数值型

2. 类别型

3. 时间类

4. 文本型

5. 统计型

6. 组合特征

---1. 数值型

--------幅度调整/归一化（年龄、销售量）

--------统计值max、min、mean、std（波动情况，方差）（最高最低消费---消费能力）

--------离散化（price分段 pd.cut）柱状分布 | 直方图统计 | 不一定均匀切分| 可能在密度高的地方进行频次切分

--------Hash分桶

--------每个类别下对应的变量统计值histogram（分布状况）

---------数值型-->类别型

python-pandas数据处理包

---2. 类别型

-----1. one-hot编码

------2. 哑编码

------3. Hash与聚类处理

小技巧：统计每个类别变量下各个target比例，转成数值型

histogram映射

比如第一个特征性别，首先看target（爱好）的取值空间{足球、散步、看电视剧}，总共有三个男生，有两个喜欢足球

足球散步看电视剧

男[2/3，1/3，0] 意义：有这么一个群体叫做男，有2/3喜欢足球，有1/3喜欢散步，没有人喜欢看电视剧。【可以看作自己添加的维度】

好处：把target和特征的后验概率联系起来

---3.时间型(电商里用的频繁)

时间型既可以看作是连续值也可以看作是离散值

------1）连续值：持续时间（单页浏览时长->喜好程度，购买倾向性）间隔时间（上次购买/点击离现在的时间->消耗品）

------2）离散值（离散化->找完备集）：a)按小时时间段(hour_0-23)

b)一周中天数（星期一、星期二）

c）一年哪几个星期

d）工作日/周末

举例：预测哪一个顾客会成为常客（用途根据不同的顾客划分，给予不同的优惠）

顾客购买记录

对于时间戳特征：除了能够拿到年月日（连续值），还能根据日历（一些离散值）判断出星期几，是一年当中的第几个星期（和季节有关），一天当中的第几个小时（早中晚（与外卖相关））

年月日-->节假日和购物的关系，用户的节假日喜好（造出离双十一还有多少天、节假日过去了多少天）全靠脑洞

购物的话平时和周末有差别

----4. 文本型

-- 词袋

文本数据预处理后，去掉停用词，剩下的次组成的list在词库中的映射稀疏向量

词袋

hash技巧--bucket{领域词集}

比如bucket1=体育，bucket2=医学

将不同的语句在不同领域背景下转换成向量

----把词袋扩充成n-gram

原因-->顺序无关

举例：无法区别“我讨厌你”，“你讨厌我”

2-gram["我讨厌"，“讨厌你”，“你讨厌”，“讨厌我”]

区分就变强了

------统计方法TF-idf特征

给每个词编码一个权重，用于评估某个语料集某个词的重要程度。字词的重要性会随着它在文件中出现的次数正比增长（特征），但是会随着在语料中出现的频率成反比下降（普适）

-----深度学习：词袋-->word2vec

向量不再是0-1，而是连续值（表示不同词之间的关系）

比如（国王--女王）（男人--女人）两个向量对之间的关系是近似的

再比如(柏林--德国)（东京--日本）那么柏林到德国的距离和东京到日本的距离是相当的

------5. 统计特征（与业务贴合很高）

历届的kaggle/天池比赛，天猫/京东排序和推荐业务线里模型用到的特征

---加减平均：商品价格高于平均价格多少，用户在某个品类下消费超过平均用户多少？用户连续登陆天数超过平均多少

---分位线：商品属于售出商品价格的多少分位线处

----次序型：排位

---比例类：电商中，好/中/差评的比例

你已超过全国百分之...的同学

举例：天池大数据之移动推荐算法大赛

特征处理举例

1）前一天的购物商品很有可能第二天就被购买==>规则

2）剔除掉在30天里从来不买东西的人 ==>数据清洗

3）加车N件，只买了一件的，剩余的不会买 ==>规则

4）购物车购买的转化率 ==>用户维度统计特征

5) 商品热度 ==> 商品维度统计特征

6) 对不同的item点击/收藏/购物车/购买的总计 ==>商品维度统计

7) 对不同item点击/收藏/购物车/购买平均每个user的计数 ==> 用户维度统计

8）变热门的品牌/商品 ==> 商品维度统计特征（差值型）

9）最近1/2/3/7天的行为数与平均行为数的比值 ==>用户维度统计特征(比例型)

10）商品在类别中的排序 ==>商品统计特征(次序型)

11）商品交互的总人数 ==>商品维度统计特征（求和）

12) 商品的购买转化率及转化率与类别平均转化率的比值=>商品维度统

计特征(比例型)

(13) 商品行为/同类同行为均值=>商品维度统计特征(比例型)

(14) 最近1/2/3天的行为(按4类统计)=>时间型+用户维度统计特征

(15) 最近的交互离现在的时间=>时间型

(16) 总交互的天数=>时间型

(17) 用户A对品牌B的总购买数/收藏数/购物车数=>用户维度统计特征

(18) 用户A对品牌B的点击数的平方 =>用户维度统计特征

(19) 用户A对品牌B的购买数的平方=>用户维度统计特征

(20) 用户A对品牌B的点击购买比=>用户维度统计特征(比例型)

(21) 用户交互本商品前/后，交互的商品数=>时间型+用户维度统计特征

(22) 用户前一天最晚的交互行为时间=>时间型

(23) 用户购买商品的时间(平均，最早，最晚)=>时间型

----6. 组合特征

----简单组合特征：拼接型 10002（用户id）&& 男士牛仔

实际电商点击率预估中：

正负权重，喜欢&&不喜欢某种类型

---模型组合特征

1. 用GBDT产出特征组合路径

2. 组合特征和原始特征一起放进LR训练

3. 最早facebook使用的方式，多家互联网公司在用

网友评论

本文标题：特征工程（二）

本文链接：https://www.haomeiwen.com/subject/wbacrxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

特征工程（二）

相关文章