CTR预估

作者: 拼搏向上001 | 来源:发表于2019-03-09 12:28 被阅读0次

    Online Advertising业务背景

    三方业务场景:广告主、平台、用户
    广告计费方式:CPM(cost-per-mille)曝光,CPC(cost-per-click)点击,CPA(cost-per-action)购买
    CPC:搜索引擎通常采用的计费方式,与“点击次数”和“每次点击的钱”有关
    Click-Through-Rate(CTR):总“曝光次数”里的“点击次数”占比
    CTR=\frac{Clicks}{Impressions}\times 100%
    排序:按CTR每个广告的price两个标准排序

    CTR机器学习任务:CTR值预测——>是否点击(二分类)

    baseline model:Logistic Regression

    工业界稀疏数据存储和格式

    LibLinear库:LibSVM格式

    LibSVM格式.png
    第一列——+1表示正样本,-1表示负样本
    后面的值——哪个位置有非零值:标签

    模型训练模式

    (1)下采样,单机版训练
    (2)spark

    Logistic Regression模型训练

    (1)计数类特征:离群点数据检测,剔除离群点
    (2)样本均衡(n:1):下采样;拆成n个(1:1)的分类器,多个取平均
    (3)最常用评估指标:AUC
    (4)类别型特征列的每一个类别的CTR值与平均CTR值的关系,筛选有用的维度;如果类别过多,可以利用降维或者聚类处理
    (5)类别型特征列的频次统计:频次异常低,看命中该频次的样本特性,是否可以作规则判定;频次异常高v.s.其余的几种类别,分两类

    Spark MLlib

    相关文章

      网友评论

          本文标题:CTR预估

          本文链接:https://www.haomeiwen.com/subject/qejspqtx.html