项目1 :文本多分类
1、标注问题,使用tfidf提取关键词人工标注。后来发现有情感字典,结合情感字典进行标注
2、去掉标点符号、分词,生成word2vec词向量
3、训练测试切分,将停用词存入dict
过拟合解决,L1和L2正则化,Dropout正则化一般使用在全连接层中。 提早停止
当发现在继续迭代时,验证集上的损失开始上升时,即使此时训练集上的损失在下降,也应该停止迭代。数据增强
3、电影情感分析数据评测文本多分类方法:
样本:2w 条
textcnn: auc:0.83 time:6min
charcnn: auc:0.52 time:15min
bi-lstm: auc:0.78 time:32min
bi-lstm-attention: auc:0.93 time:23min
rcnn:auc:0.71 time:27min
transformer:auc:0.93 time:10min
tf写bp,cnn,rnn
项目2、协同过滤和矩阵分解:
数据准备:对物品行为次数超过95%的用户删除
als:交替最小二乘,先初始化两个子矩阵,固定一个更新另一个,然后固定另一个,更新第一个,更新参数
协同过滤步骤:获取ui稀疏矩阵、构建物品物品相似度矩阵、两个矩阵相乘,得出topk。准确率,召回率,f1
容易出现的问题,1)两个表join的时候,如果关联的key有重复值,会出现笛卡尔积
2)刷单的情况,导致一个用户有很多物品记录,spark总是卡在一个任务上,后来把异常数据剔除
项目3、ctr预估
规则:老用户:近3天平均每天浏览最多的商品、前一天浏览的商品
新用户:热销商品、商品建模
模型:
eda:查看每天浏览次数分布,基本差不多。其中418异常数据删除
标签:当天浏览第二天又浏览的为1,当天浏览第二天没有浏览的为0
采样:滑动窗口采样,原始44万,点击率0.3%,降采样到15万
特征:近10天的浏览、加购、收藏次数,转化率,占比(用户维度、物品维度、用户物品维度、用户类别维度)
数值型特征统一将大于95%的数据丢弃后,使用最大最小值归一化
#just xgb:train:846 test:816 #just lr:train:801. test:799 #xgb+lr train:834. test:809
使用deepfm后:train 0.87 test:0.85 加dropout减少了过拟合
尝试加稀疏特征和bn,没有显著效果
其中遇到一个问题,正负样本比在1:100左右,刚开始auc在0.5几,后来调整class_weight,auc变正常
xgboost如何调参,deepfm如何调参,输入输出数据处理
项目4、短文本相似度
网友评论