目前,越来越多的互联网项目团队开始重视数据驱动、数据挖掘和AB测试的价值,这在本质上是一个方法论和思考方式的巨大转变。另一方面,在培训过上百个互联网团队后,我并不对大多数企业的现状表示乐观。和2000年左右的互联网泡沫类似,在大量风险投资推动的情况下,大量的初创公司变成“机器学习公司”,“.ai"域名被大量抢注,“等一下,我们可以通过机器学习来解决”也已成为筹资演讲稿中普遍存在的内容。
但实际上,实现理想中的基于算法的自动化的业务流程可能就是一个看起来很美好,执行起来都是”坑“的事情。只有当你获得了高质量的数据,人工智能(AI)才能有机会帮助你提高自动化的水平。
郑栋老师是我的好友和大数据方面的一线实践者和专家,我大力推荐每一个互联网团队都来听听他的实践分享。
DTalk创始人 顾青
数据采集与分析是构建数据平台过程中最重要的环节。只有确保前端数据生产的全面、准确、及时,最终产生的数据结果才是可靠的、有价值的。才能为数据分析师分析产品功能的使用情况、挖掘用户的意图;为算法工程师搭建的推荐系统;为数据工程师搭建的用户标签体系提供有力的支撑。
前端数据采集与分析就是在应用中特定的流程收集一些信息,用来跟踪应用使用的状况,后续用来进一步优化产品或是提供运营的数据支撑,这样的信息收集可以大致分为两种:页面统计和统计操作行为。
本次线上分享分为两弹,第一弹是以数据的视角,第二弹是以前端的视角展开深度探讨。作为国内第一个跨界传播和分享技术和数据驱动观念与实践经验的从业者社区,Dtalk很荣幸邀请到了郑栋老师。
郑栋, 网易互联网分析产品、可视化 BI 产品负责人。多年从事大数据技术相关工作,目前在网易管理互联网分析、敏捷BI两个数据分析产品线,在大数据技术、互联网业务数据体系建设、团队管理方面有丰富的经验。 负责过网易旗下多个业务及产品的数据体系建设工作,也有应用分析、营销监测、用户行为分析、可视化分析等多个数据产品的实战落地经验。
留言选出关心的内容
1、代码埋点、可视化埋点和无埋点有哪些区别,在使用过程中该如何选择?
2、如何打通产品多端的埋点数据?
3、怎么进行埋点工作的验证和效果评估?
4、如何进行数据埋点方案及规范的定义,以及后续怎么进行维护和管理?
5、埋点及分析平台和 A/B 试验平台如何更好的互相促进?
6、埋点数据采集与企业数据资产建设(如用户画像)怎样更好的合作?
7、在转化漏斗中,各个页面的价值是如何来定义的?
8、app与web在基础数据的要求不同,同一个业务,两者如何进行汇总处理?
9、如何做好埋点工作和研发的协调和落地?
针对上面的问题,请大家投票选出比较关心的内容,郑栋老师会结合10年的工作实践经验在直播中分享大家感兴趣的内容。有没有涉及到的问题,欢迎dtalker在留言区提问,会选择3个问题在咱们的直播中翻牌哦~
微信群线上分享会时间
2018年4月8日 20:00-21:00
进群方式
关注本公众号:DTalks 发送 0408 ,可以获得入群二维码
(群昵称请用姓名+职能+公司)
如果二维码入群人满,关注本公众号:DTalks** 发送 入群 二字,**DTalk的孙老师会拉你入群。
往期专访
【DTalk专访】网易郑栋:BI、可视化数据产品和大数据的几个核心问题
【DTalk专访】郑栋:互联网公司怎样突破机器学习的人才梯队建设瓶颈?
【预告】 前端数据采集与分析的那些事第二弹:前端篇
-
讲师:谯洪敏
-
滴滴上海前端团队负责人,前陆金所移动前端团队负责人,前端攻城狮兼Devops(Linuxer),Webpack Backer,专注于前端工程化、前端Web安全、区块链前端运用、系统监控、埋点、数据可视化与前端性能优化等领域。曾就职于Ebay、SAP等公司。团队即将出版《终极Web设计指南》和《Web响应式设计手册第二版》,团队维护Threejs中国社区(www.threejs.online)和当下优秀的Avatar Mock Server(www.mockserver.top),团队是Vue、React、小程序、PWA的布道者,同时诚邀各方前端和全栈高人加入团队。
关注本公众号:DTalks 发送 入群 二字,即可加入国内第一个跨界传播和分享数据驱动观念和实践经验的从业者社区。
干货专访和文章
【DTalk精华】网易郑栋:前端数据采集与分析的那些事第一弹: 从数据埋点到AB测试
【DTalk精华】滴滴出行谯洪敏:前端数据采集与分析的那些事第二弹:企业如何选择自动埋点和可视化埋点
【DTalk精华】滴滴出行谯洪敏:前端数据采集与分析的那些事第三弹:埋点需求整理原则于埋点流程规范
【DTalk专访】彭圣才:AI超越人类大脑,是一场「別有用心者」的骗局吗?
【DTalk专访】翁嘉颀:AI行业现阶段最需要什么样的人才?
【DTalk专访】赵华:携程怎么把机器学习与实际业务相结合?
【DTalk专访】网易郑栋:BI、可视化数据产品和大数据的几个核心问题
网友评论
【需求】目前就是想着能不能有一个快速的方法将这个问题解决掉,当一个新页面上去之后迅速就能看到这个页面的数据。
【目前想到的方案】 目前我能想到的一个解决方案就是:做一套埋点系统,将所有的埋点都以变量的形式放在一个大的查询当中,每天晚上去跑这个查询,将查询的结果展现在页面上或者报表上,实现自动化。
【问题】对于提升埋点数据效率,有什么坑可以规避,有什么经验可以分享。
如何打通产品多端的埋点数据,如何把他们识别为同一个客户?这个有好的解决方案么?
【场景】
1、多端识别方面,比如顾客通过网页SEM下载了APP,然后在APP内购物,计算ROI的时候肯定要算到这个SEM里面的,所以需要识别客户。
2、同一个用户,如果通过SEM访问后,再注册登陆,下载APP,如何识别到是同一个用户并且归功于哪个SEM?
3、SEM会有个有统计代码的链接,通过那个链接下载的就是那个渠道引流的用户,但是WAP和APP依旧不是同一个ID,通常是怎么处理的呢?
【场景】我手机上用某一个app,这个app上我做了一套用户行为埋点。那么我肯定不希望我操作这个app的时候这些数据信息随时同步到这个app的后台,因为我要花流量费。而上传信息对我本人来说没有什么效益。但是这部分我不清楚会耗费多少流量。那用户万一清理手机了呢,是不是行为信息就没了?那如果不是实时上传,就是检测到wifi环境上传。
app数据采集可能会存在数据上报延时,倾向于采用数据的生成的时间还是服务器收到的时间?
【场景】
行业原因,车开进地库了,就没有4G信号了,然后车主可能一周后再出车,此时数据才上来。导致app数据采集可能会存在数据上报延,数据会存在两个时间,数据生成的时间、服务器收到的时间。我们在建立ODS的时候,表的分区一般会采用天来做分区。
【目前想到的解决方案】
无论按服务器时间还是数据生成时间,因为dw是定期执行的,数据延迟到达的话无论如何都无法避免。此时只能针对特定业务来处理,和业务确认一个合理的最大延迟时间。超过最大延迟的丢弃。合理时间内的dw按数据生成时间来做,然后某些在dw上汇总统计操作再定期重跑。