excel的支持
我一直期待MLSQL能成为一个真正的数据中台,但是推广一段时间,发现产品和运营体系的同学好像还没有接进来。当然这个有多方面原因,比如用户界面不够易用,对非编程人员不够友好等等。其实最大问题在于,他们发现这个东西没有他们使用的场景,因为他们真正处理的最多的数据格式其实是excel,而你的平台不支持。其次是,一般excel我都是各种渠道搞到的,不会默认在集群上,我需要上传才能使用。但是直接上传到HDFS是不被允许的(安全问题),所以需要一个新的设计来解决这个问题。
有了上传功能(支持目录上传),也有了excel支持,那么比如运营同学弄到了一批用户名,这个时候他想要获取这些用户的邮箱,他可能关联一个信息有限的hive表,mysql表等等,然后写一条join语句就能搞定,并且能够在界面完成邮件发送等等,这样他的工作就都可以在数据中台完成了。
假设我有个目录test2,然后里面有三个文件,一个excel文件:
image.png
我可以把整个目录上传上去:
image.png现在显示成功:
image.png这些文件其实是被上传到了web服务器的一个临时目录里,如果希望在MLSQL中使用,你需要再下载下来,用户只能下载自己上传的文件。因为这里我没有配置用户主目录,所以用户可以自己指定目录:
image.png我们看到数据被上传到了hdfs的/tmp/jack目录里。接着我就可以加载excel数据了,当然,你还可以报结果保存成excel文件,之后把Mail ET把结果通过邮件等发送出去,从而通过一个简单的脚本完成一个完整的流程。
image.png流式计算更好的图形化支持
流和批都被统一成了相同的任务,可以通过 mlsql.jobs
查看:
你可以看到流的进度详情:
image.png当然我这都变成直线了,因为没有数据持续进来。
点击RawData标签,可以看到每个周期详细信息:
image.png资源占用更好的图形展示
当你运行一个复杂的任务时,你可以实时看到这个任务的资源消耗以及进度。
image.png
网友评论