
总结
- 平台(数据/模型)是众多公司通用的发展前后期必然需求
- 应对业务目标/用户流程的多种建模策略方式,在『线上电商』公司中是共通且模式化的。不同的只是进展程度和技术细节。
- 一些业务应用方向和技术发展方向的思考。
分点收获
1.模块意识
需要有平台/模块系统意识,目标是为了减少重复低效人力投入。
详解:通过参与多家公司关于数据挖掘/机器学习的主题分享演讲,发现基本上每家公司都会有一个自己构建的平台(包括对接运营数据获取平台以及机器学习框架平台)。大多数公司的历史发展进程是从遇到重复问题框架多次发明轮子进而导致浪费人力,然后为了减少低效人力投入,进而抽取解决问题过程中可以自动系统化的部分,形成模块。这里的模块概念个人认为非常重要,模块可以理解为平台的抽象。抽取重复低效部分让系统去解决,其余的人力就可以投入到开拓性的任务中,进而产生更多的价值。(比如:Paypal的SHIFU机器学习框架平台)
借鉴/结论:数据分析平台和机器学习平台都是发展过程中至少现有阶段的成熟经验。数据分析平台用来支持运营的全套分析,解放低效重复的数据类工作产生的低效人力投入。而机器学习平台的产生是由于大规模重复构建模型的需求导致的必然结果。相比更重要的是中间阶段:如何应用数据产生业务价值。是连接数据分析平台和机器学习平台的桥梁。
2. 面对业务价值建模&用户生命周期管理:
针对用户建模和针对场景建模。
详解:面对业务价值指的是,以改进业务为最终目标的模型才是有效的模型。针对用户生命周期,针对每一个环节形成项目/指标进行优化。
借鉴/结论:在唯品会的策略中,其实可以抽象出来的通用并且比较显然可以借鉴的策略有二。
其一,针对用户建模。对于用户的意愿进行预测。具体的说,可能一种策略就是通过对用户售前行为的预测,预测用户对每种产品的意向程度,进行针对性的营销和运营。
其二,针对场景建模。可能的一种应用策略是通过对用户售后订单资源的使用等情况,来预测推断其是否有进一步的需求或者是是否会 产生流失的风险。



3. 一些可能的业务场景应用方向的借鉴
携程:构建知识图谱和用户图谱。
- 用来产生自助问答系统,解决信息查询问题。
- 用来对用户进行实时意向的分析和跟踪推荐。
- 用作工单的智能分配。
4.开发技术方向的思考
模型构建工具的选择
-
参考了几家公司的模型构建工具选择,普遍的一个共有选项是H2O,从实践意义上证明H2O还是有一定优势的。结合效果上说,选择H2O会更理想
-
H2O优点:训练效果好,可扩展,配置简单可与hadoop结合
-
缺点:初始数据的导入比较慢,模型的调试需要丰富的经验
-
特征和模型选择
- 参考Paypal的经验,在小数据量(1M)时,采用简单的LR和人工特征工程会比较合适。在中等数据量(几百万)时,采用集成学习和自动特征抽取的方式比较合适。在大数据量(数亿)时,采用DNN会效果更好(这点在Andrew的深度学习课程上也进行过效果曲线的介绍)
羊毛出在猪身上,打标签的方式思考
- 背景:流利说借用户的学习语音和学习视频对中国人的英语视频进行打标签,超低成本的获取了海量的带标签的训练数据。
- 借鉴意义:在用户的属性标签上,是否也能设置按键根据用户的行为来自动为其打上标签,以减少人工(客服等方式)打标签的成本。
5. 业务粘性的一点个人思考
google在2015年10月份开源了其深度学习流式框架Tensorflow,紧随其后,2016年年底左右百度也同样开源了深度学习框架PaddlePaddle。其他AT等相继也开源了深度学习框架。但开源的算法其实并不会直接带来公司的竞争收益。而google的一个做法是开发了专门用于TF框架运行的TPU,其训练的效率是传统GPU之上几倍。虽然不确定TPU的出世背后的故事,但从效果来看,如果一家公司采用了TF框架,想要在训练和使用上更加有效率,则在云平台的选择上,集合了TPU的google cloud显然会是更好的选择。
免费的算法,收费的硬件,这样的互联网模式可能会在AI这个角度上增加云平台对于用户的粘性。类比来看,百度对于国内其他公司一直有AI算法优势,但技术上的优势一直没有体现到产品变现上。如果在能打开paddlepaddle的前提下效仿google软硬件结合,在云平台的用户粘性上应该会是很大的优势。相应的,AT等拥有云平台企业的软硬结合策略也会对平台用户粘性产生正面影响。
网友评论