本周主要是继续调整排行榜,和同事规划一起规划新的视频后台,顺便也拿到了直播的弹幕样本数据开始规划打点算法的优化。骚男一场直播XX w+条弹幕啊,excel直接卡死......
两个改变:最近开始爬infoq的文章,读起来还蛮有收获。准备学Python了,没门脚本语言仿佛分析数据还是有点没底。
讲点收获:
关于INS的热门趋势算法
看了INS的热度趋势算法,通过tag的趋势来大致判断内容趋势。几个比较关键的点为:实时tag数量分布到tag在实时出现概率的规范化,预测某tag在某时数量分布到tag在某时出现概率的规范化。两者相对比反差表现的趋势(tag活跃度高于预期反映趋势,使用KL散度计算),同时考虑不同tag代表相同含义的情况。
1. 这块的难点应当是预测某tag在某时的数量分布这一模型,INS选用上周同期的数据预测并排除方差过大的干扰(学习到一点,多取一些数据减小随机性,并设置默认值以防数据过少,默认值的取值要观察历史数据分布得出)。
2. 指数函数是最常见的衰减函数的。
3. 识别出描述同一趋势的tag,选择最能代表其内容的tag。第一项为计算各tag间的相似度(第一反应居然是协同过滤,捂脸,错到八百里外了,协同过滤对内容解释度太差),可从tag共现率,编辑距离(同一标签的不同拼写)来考虑。
![](https://img.haomeiwen.com/i1642582/bdb87e4bcf98f0ad.png)
发现INS对热门趋势的定义和我们不同,特别是新颖性的定义。
流行度——社区中要有许多人对该趋势感兴趣
新颖性——该趋势是关于一些新东西
时效性——该趋势是在真实事件发生时出现在Instagram上的
有点质疑新颖性存在的必要性,作为社交平台,旧饭新炒的趋势出现和新东西趋势的出现应当被放在同等地位上。
思路应用在排行榜算法上
之前的思路是给不同视频tag设置不同的衰减速度,毕竟新闻类时效性更强,衰减速度肯定要大于其他tag。
对热门趋势的反应体现在视频的瞬时增长上,不过现在觉得可以设定/预测一个阈值反应一个平均的热度,超过阈值可有趋势热度加权(或者使用现在的实时平均热度)。
PS:Instagram的内容组织是通过tag,我们视频库的内容组织也是通过tag,但是两者最大的区别是Instagram的tag体系前台上看是松散的,偏向于用户组织的,毕竟是UGC,而且也没有明显的层级关系;而视频tag组织是靠运营根据经验把控,也符合现在PGC的现状。但是未来如果做UGC内容,这个编辑预设的tag肯定是不行的呀,必须要开放用户打tag......混合个性化推荐仿佛是个超大工程Orz
发现Spotify牛逼的设计*1
3D touch预览Highlight
![](https://img.haomeiwen.com/i1642582/3357d2a2f333894b.png)
![](https://img.haomeiwen.com/i1642582/3c61e1890069a39d.png)
以3D touch的触摸方法可以直接预览Artist和list下的歌曲Highlight,当前播放进度会被保留;3D Touch预览结束后可以继续当前播放。这简直是解决了一个大痛点啊,预览时不想破坏当前播放进度,设计的太棒。【不过这个Highlight算法值得商榷啊......不是很准,有偏移,这点在优化打点算法的时候也要考虑】
听说今年要上Hi-Fi音质???
剩下的没啥了......Python学习中
网友评论