通过DataWorks数据集成归档日志服务数据至MaxCompu

通过DataWorks数据集成归档日志服务数据至MaxCompu

作者: 阿里云云栖号 | 来源:发表于2019-04-02 15:48 被阅读31次

通过DataWorks归档日志服务数据至MaxCompute

官方指导文档：https://help.aliyun.com/document_detail/68322.html
但是会遇到大家在分区上或者DataWorks调度参数配置问题，具体拿到真实的case模拟如下：

创建数据源：

步骤1、进入数据集成，点击作业数据源，进入Tab页面。

步骤2、点击右上角

新增数据源，选择消息队列 loghub。

步骤3、编辑LogHub数据源中的必填项，包括数据源名称、LogHub
Endpoint、Project、AK信息等，并点击测试连通性。

创建目标表：

步骤1、在左侧tab也中找到临时查询，并右键>新建ODPS SQL节点。

步骤2、编写建表DDL。
步骤3、点击
执行按钮进行创建目标表，分别为ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。

步骤4、直到日志打印成本，表示三条DDL语句执行完毕。

步骤5、可以通过desc 查看创建的表。

其他两张表也可以通过desc 进行查询。确认数据表的存在情况。

创建数据同步任务

数据源端以及在DataWorks中的数据源连通性都已经配置好，接下来就可以通过数据同步任务进行采集数据到MaxCompute上。

操作步骤

步骤1、点击
新建业务流程并确认提交，名称为直播日志采集。

步骤2、在业务流程开发面板中依次创建如下依赖并命名。

依次配置数据同步任务节点配置：web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

步骤3、双击

web_tracking_log_syn 进入节点配置，配置项包括数据源（数据来源和数据去向）、字段映射（源头表和目标表）、通道控制。

根据采集的时间窗口自定义参数为：

步骤4、可以点击高级运行进行测试。

可以分别手工收入自定义参数值进行测试。

步骤5、使用SQL脚本确认是否数据已经写进来。如下图所示：

日志服务的日志正式的被采集入库，接下来就可以进行数据加工。
比如可以通过上述来统计热门房间、地域分布和卡顿率，如下所示：

具体SQL逻辑不在这里展开，可以根据具体业务需求来统计分析。依赖关系配置如上图所示。

本文作者：祎休

本文为云栖社区原创内容，未经允许不得转载。

相关文章

网友评论

本文标题：通过DataWorks数据集成归档日志服务数据至MaxCompu

本文链接：https://www.haomeiwen.com/subject/ftmwbqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据，机器学习，人工智能

我是程序员

玩转大数据

大数据爬虫Python AI Sql

热点阅读

大数据，机器学习，人工智能

我是程序员

阿里云

大数据

玩转大数据

大数据爬虫Python AI Sql

关于我们|服务条款|联系我们|通过DataWorks数据集成归档日志服务数据至MaxCompu|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！