MF 对于一个评分矩阵,M(i, j)表示用户i对物品j的评分可以做如下分解 预测值接近真实值就是使其差最小,这是...[作者空间]
LDA数学八卦学习笔记 数学知识 Gamma函数 Gamma函数的性质其可以看作阶乘在实数集上的扩展 Gamma分...[作者空间]
MobileNetV1 MobileNet模型的核心就是将原本标准的卷积操作因式分解成一个depthwise co...[作者空间]
强化学习问题 增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,其在任意初始状态下,都能获得最大的回报值...[作者空间]
策略梯度学习笔记https://zhuanlan.zhihu.com/p/26441204 随机策略梯度 定义回报...[作者空间]
TRPO 引出优化目标新策略的回报函数可以分解为旧策略的回报函数+一些其它项 其中A是优势函数,证明过程如下 若设...[作者空间]
参考 https://blog.csdn.net/Dark_Scope/article/details/70992...[作者空间]
和AlphaGo中的MCTS不同Q-Learning和Sarsa都是基于TD的强化学习方法 Q(s, a) 表示动...[作者空间]
http://bair.berkeley.edu/blog/2017/07/18/learning-to-lear...[作者空间]
FNN 如果有办法将每个特征用其所属的 field 来表示,原始输入将大大减少不少。Factorisation-m...[作者空间]
EM算法 EM 算法就是含有隐变量的模型参数的极大似然估计法 我们面对一个含有隐变量的概率模型,给定的训练样本是{...[作者空间]
支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上 经验风险 = 分类器在给定样本上的误差...[作者空间]
UFLDL Tutorial学习笔记 概述逐层贪婪训练法依次训练网络的每一层,进而预训练整个深度神经网络。在本节中...[作者空间]
UFLDL Tutorial学习笔记 PCA 主成分分析(PCA)是一种能够极大提升无监督特征学习速度的数据降维算...[作者空间]
什么是目标追踪 我们首先看上方给出的3张图片,它们分别是同一个视频的第1,40,80帧。在第1帧给出一个跑步者的边...[作者空间]
极大极小搜索 对于围棋的每一步可以用如图树形结构表示假设每一种走法的回报是已知的,黑棋先走每次轮到黑棋走时,走对黑...[作者空间]
GAN系列学习笔记 GAN GAN的任务是“无中生有”。打个比方,我们想要造假币(但是不知道真币是什么样的),那么...[作者空间]
什么是语义分割 我们都知道,图像是由许多像素(Pixel)组成,而「语义分割」顾名思义就是将像素按照图像中表达语义...[作者空间]
简介 推荐系统通常分为召回和排序两个步骤召回:粗排选取合适的内容,可以通过协同过滤,兴趣tag,内容最热等方式排序...[作者空间]
RL 强化学习问题的定义 贝尔曼等式这个公式定义了 Reward 的计算 时间差分计算N步的 Reward 值误差...[作者空间]