1. 前言
特征 = 数据中抽取出来对结果预测有用的信息
2. 数据与特征处理
2.1 数据采集
Paste_Image.png2.2 数据格式化
Paste_Image.png2.3 数据清洗
Paste_Image.png2.4 数据清洗实例
Paste_Image.png2.5 数据采样
Paste_Image.png2.6 正负样本不均衡
Paste_Image.png2.7 特征处理
Paste_Image.png2.7.1 数值型
Paste_Image.png Paste_Image.png Paste_Image.png Paste_Image.png2.7.2 类别型
2.7.2.1.pngone-hot 解决了均等性
2.7.2.2.png 2.7.2.3.png 2.7.2.4.pngbucket代表不同的主题
2.7.2.5.png性别和爱好的交叉关系
2.7.3 时间型
2.7.3.1 2.7.3.2 2.7.3.32.7.4 文本型
2.7.4.1.png 2.7.4.2n-gram 把几个词组合在一起
2.7.4.3word2vec
2.7.5 统计特征
2.7.5.1 2.7.5.2 2.7.5.32.7.6 组合特征
2.7.6.1 GBDT3.特征的处理
3.1 特征的选择
3.1.13.2 特征选择的方式
过滤型 过滤型python包包裹型 包裹型python包 嵌入型 嵌入型python包
网友评论