Online Advertising业务背景
三方业务场景:广告主、平台、用户
广告计费方式:CPM(cost-per-mille)曝光,CPC(cost-per-click)点击,CPA(cost-per-action)购买
CPC:搜索引擎通常采用的计费方式,与“点击次数”和“每次点击的钱”有关
Click-Through-Rate(CTR):总“曝光次数”里的“点击次数”占比
排序:按CTR和每个广告的price两个标准排序
CTR机器学习任务:CTR值预测——>是否点击(二分类)
baseline model:Logistic Regression
工业界稀疏数据存储和格式
LibLinear库:LibSVM格式
第一列——+1表示正样本,-1表示负样本
后面的值——哪个位置有非零值:标签
模型训练模式
(1)下采样,单机版训练
(2)spark
Logistic Regression模型训练
(1)计数类特征:离群点数据检测,剔除离群点
(2)样本均衡(n:1):下采样;拆成n个(1:1)的分类器,多个取平均
(3)最常用评估指标:AUC
(4)类别型特征列的每一个类别的CTR值与平均CTR值的关系,筛选有用的维度;如果类别过多,可以利用降维或者聚类处理
(5)类别型特征列的频次统计:频次异常低,看命中该频次的样本特性,是否可以作规则判定;频次异常高v.s.其余的几种类别,分两类
网友评论