最近刷完了十年前就该刷的电视剧《奋斗》。剧中陆涛作为官二代+富二代,谈不上什么奋斗;向南因为颇得女人缘,有瑶瑶和杨晓芸自带房子也谈不上奋斗;华子则靠朋友猪头开启了逆袭之路;相比较来说,露露才是剧中典范,父亲早逝,弟弟聋哑,母亲年迈,多了一份责任,一开始就有清晰的目标,最终嫁给猪头,成为了“北京人”。可见底层目标明确有多重要。
小乐帝起初做AI产品经理毫无头绪,无论推荐系统原理还是业务都不能理解,但也深知做好AI产品经理必须对AI技术和客户需求有足够的认知和理解。因此早早便揽下帮客户建模来了解机器学习和业务。今天终于靠自己帮客户建模并完成上线,工作之余梳理下推荐拥有AI能力的推荐系统。
AI推荐系统
推荐系统作为互联网的基石系统,最早应用于亚马逊卖货,伴随着互联网发展而发展。传统的推荐系统有不同的算法实现,比如user-CF、item-CF已经烂大街了。随着移动互联网发展被广泛应用的推荐系统,是在传统推荐系统算法召回结果基础上,增加了通过机器学习对结果进行排序的一步,按照打分由高到低将结果依次展现,提升推荐效果。在信息过载的社会大背景下,进一步降低人的决策成本,提升用户体验。
大数据是燃料
机器学习来对推荐系统召回结果打分排序,需要拿到用户历史行为信息构建模型来实现。构建模型通常分为三步:特征工程à调参à生成模型。在以上三步基础之上需要数据输入,将数据称为AI时代的燃料一点都不过分。
小乐帝此次将数据坑踩了一遍不为过,比如数据量不足,关键字段缺失,大范围空值等。由于数据量不足,遇到了训练集AUC过低或测试集AUC过高两种极端场景,建模工程师也无法解释的情况下,加深了大数据量至少要大的认知。数据量少无法构建泛化能力足够强的模型,往往会过拟合或欠拟合,达不到预测效果。
特征工程是核心
古人云“数据和特征决定了机器学习的上限,模型和算法只是逼近这个上限而已”。通常来说,机器学习建模最具技术含量的并非建模本身,而是建模前的特征工程。特征工程价值是将拿到的数据特征以机器友好的方式提取出来,输出给机器用来建模。因此特征工程实际是业务和算法的交叉点,特征工程做的好对业务和机器理解都要深刻。
比较通用的特征工程原则有连续离散特征提取、穿越行为数据不能用于建模、空值或固定值不具备信号也可以舍弃。特征工程实际是人根据对数据和业务的理解,尽可能提升传递给机器学习的信噪比。
线性回归是标准
机器学习算法有很多种,但工业界80%以上的场景都采用的是线性回归算法。一则线性回归算法可解释性强;二则线性回归算法时间复杂度低,不会随着任务复杂度提升运算复杂度指数上升。
在推荐系统中,采用的是逻辑回归算法,算法的核心逻辑是sigmoid函数。Sigmoid函数在定义域中对应值域在[0,1]。也即构建的线性模型中,无论输入如何,结果始终可以映射成0或者1。相应地在推荐系统中就可以映射为某项是否被点击,实际上推荐系统80%都是解决点击率预测的问题。
采用逻辑回归算法构建好模型后,召回数据输入,经过模型打分,由高到低就成了排序后的结果。再经过模型自学习,不断优化和调整模型,推荐效果就越来越好了。
调参需要数学功底
选择算法容易,但模型达到什么样的程度能够上线是一个值得思考的问题。这也是很多大公司花大力度养团队做的事情,即如何调参达到最佳模型效果。
常见的参数有学习率、训练轮数、L1、L2正则系数。学习率是梯度下降的步长,步长越大或越小可能导致过拟合或欠拟合的问题,训练轮数则是一个迭代过程,L1、L2则是防止过拟合。
每个参数的调整都需要根据对数学的理解进行,对数学功底要求很高。
MVP机器学习
理论上来讲,特征工程和调参都可以通过机器遍历,找到最佳值,这样就可以使人在不懂机器学习的基础上,也可以实现建模。小乐帝所在公司恰恰有这样的产品,小乐帝在建模过程中,使用了自动特征组合和逻辑回归自动调参,首先确定了特征值再之后对逻辑回归参数完成了设定,最终跑出了高于自动建模0.06个点AUC 0.73的最佳值。最终交付模型上线。
模型对线上召回结果愉快的打分,推荐系统实现了效果上和体验上的提升。为改变世界贡献着一份力量。
号外:
小乐帝本科毕业五年了,2018年元旦会游长沙(30、31)、武汉(1),有当地小伙伴可以相约同游,共求改变世界之路。
「产品经理读书会」
专注于爱读书爱思考的产品人提供读书推荐、产品思考、以书会友的环境
欢迎爱读书的产品人分享产品道路上的感悟
投稿邮箱:booksforpm@126.com
网友评论