美文网首页机器学习
置信区间上界算法-原理

置信区间上界算法-原理

作者: 灵妍 | 来源:发表于2018-04-09 21:10 被阅读34次

楔子:


多臂老虎机.PNG
1、机器狗
机器狗.PNG

原始方法:通过周围的环境决定机器狗的走路方式
强化学习方法:通过让机器狗自己试错,如果结果顺利加分,如果结果错误减分。

2、老虎机
老虎机.PNG

老虎机就是一种你往里头投硬币,会返给你一个或者多个硬币,或者吞掉你的硬币的机器。多臂老虎机就是多个老虎机。


老虎机分布.PNG

每个老虎机的直方图都是随机的,只有商家知道,这里我们假设这五台老虎机吐硬币的个数分布服从上图。

3、广告商业案例
广告商业案例.PNG

强化学习就是探索加利用,我们要用最快速高效的算法探索出最好的机器或者广告,然后多加利用这个最好的结果。
对于老虎机而言我们需要找到均值最高的五号机,探索次数太少,可能结果不正确,探索次数太高会增加试错成本。
对于这五个广告而言,我们需要找到转化率最高的广告,可以分别把他们放到5个网页上,统计转化率,也就是点击广告的次数除以打开网页的次数。如果分别在网页上挂3天,这个试错成本比较高,如果第一天的统计结果明显较低的广告,我们就不考虑再挂第二天和第三天了。

4、置信区间上界算法

楔子:


置信区间上界.PNG

强化学习就是探索在结果正确的保证下相对高效快速,然后最大程度的利用。


解决问题.PNG
问题:我们在同一个网页轮番的展示5个广告,如果用户在打开网页是点击了该网页上展示的广告。我们就为这个广告加一分。
置信区间上界算法步骤.PNG

在每经过一轮,我们都会重新计算均值和置信上限,选择当前置信上限最高的广告进行下一次投放,如此迭代,如果出现置信上限等高的就随机选取。如此迭代投放,直到置信区间收敛到一个很小的值。


初始情况.PNG
在一开始我们假设均值是一样的,置信区间比较大,因为我们没有经过探索,对于预估的均值非常不自信。
这里横坐标代表广告,纵坐标代表广告的转化率。
D3进行探索之后的值.PNG
最终结果.PNG
通过不断的选择置信区间上限最大的值进行投放。我们会得到一个置信区间上限最大且范围越来越小的均值。

相关文章

  • 置信区间上界算法-原理

    楔子: 1、机器狗 原始方法:通过周围的环境决定机器狗的走路方式强化学习方法:通过让机器狗自己试错,如果结果顺利加...

  • 置信区间上界算法-Python

    随机投放 1、导入标准库 代码: 2、投放规则 实际中我们不可能通过在网页上轮番投放广告,统计用户会点击某个广告,...

  • 置信区间上界算法-R

    楔子:从自己学习走路的机器人狗到自己学习围棋的AlphaGo无不用到强化学习。在分类算法中我们通过点击广告的用户与...

  • 时间复杂度分析

    算法意义在于在时间和空间中找出最优解 O(f(n)) 表示算法执行的上界O 表示算法执行的最低上界 O(nlogn...

  • 机器学习A-Z~置信区间上界算法 Upper Confidenc

    本文将要开始介绍机器学习中的强化学习, 这里首先应用一个多臂老虎机(The Multi-Armed Bandit ...

  • 路径规划文集

    1、最短路径规划算法——A*算法 1)A*算法原理形象阐释; 2)A*算法原理;

  • Apriori

    Apriori算法原理总结-刘建平FP Tree算法原理总结-刘建平PrefixSpan算法原理总结-刘建平用Sp...

  • RSA算法原理(作者: 阮一峰)

    RSA算法原理(一) RSA算法原理(二) RSA C算法实现【 看雪安全论坛】

  • 算法复杂度表示

    算法复杂度分析中的符号(Θ、Ο、ο、Ω、ω)简介Θ,读音:theta、西塔;既是上界也是下界(tight),等于的...

  • Prim算法 Python实现代码

    本文只对Prim算法进行实现,若需了解算法原理可参考文末链接。 Prim算法原理

网友评论

    本文标题:置信区间上界算法-原理

    本文链接:https://www.haomeiwen.com/subject/culwhftx.html