美文网首页
小江工作复盘

小江工作复盘

作者: 大数据阶梯之路 | 来源:发表于2020-05-03 01:00 被阅读0次

    知识是需要总结的,美好是需要记录的.
    才想起,时隔好久没写简书了,五一假期已过2天,趁着五一假期没回家,好好复盘一番,分为技术总结篇和耍乐记录篇~

    一、实践复盘

    在写这个模块前,得先感谢下在公司华哥和赵哥的指导,从他们身上总可以散发出老鸟程序员的经验,欣赏 赵哥工作的勤奋,华哥工作的效率。(PS:时常看见赵哥早上早早地来到公司,听见华哥经常性地爆出一句又想到了一个优化的方案了),小江在组里是新手,偶尔总是翻车被批在所难免,希望早日磨炼到华哥说的遇到问题不要慌。

    开始经验总结

    日常工作是ETL数据处理流程,主要有报表开发、画像标签开发、各部门数据临时取数等,常用语言:hiveQL离线大数据处理,python脚本调度任务。以下总结尽可能还原出实际场景...

    • 1、在写hiveQL时,注意在确保不影响各计算指标时内层查询要尽可能的收敛数据。
      比如之前在计算次日留存用户的时候,通过左关联当天用户数据和次日用户数据来做子查询,关联上则表示次日用户在当天仍有活跃,则外层查询做逻辑计算uv,然而之前执行调度任务调度了1小时多,被华哥发现了,emmm于是秀操作的来了,华哥调出hive脚本看了下,我被吐槽了,这内层查询都没做group by收敛,数据量肯定发散了,优化之后,调度执行时间就几分钟...
    • 2、方向方法要掌握对,遇到数据支持任务取数,最效率地是要熟悉好各个数据表的用途,做好记忆。
      比如需要埋点行为数据的指标,就要立马反映是从事件行为表取数,需要活跃数据的指标,就要从活跃表取,而又分app活跃明细表和app活跃统计表,这部分总犯迷糊搞错,现在觉得主要得从调度平台看调度任务分析表内部的数据含义,请教别人虽然快,但记忆不深,自己摸索出才记忆得住,当然这需要有时间让自己摸索。还有有时业务会需要让提供hiveQL脚本,而表可能包含敏感字段数据,可把数据表生成视图方式隐藏关键表字段提供脚本。
    • 3、业务要先清晰好,写代码才有逻辑思路。
      当任务转交给我时,其实正确地做法是先分析下需求,然后找相关的业务对接人讨论疑惑点,确认清晰了再动手做,效率才高。而不是等做得差不多了,因为双方理解有误导致代码需要重构,这是我经常犯的大错,总是想着应该是我理解的这样,就省点沟通时间而反而后续花费了更多的时间。
    • 4、尽可能地考虑到数据的实际场景方面,不做代码工具人,ETL工程师是需要熟悉业务场景的,这样处理的数据才会有根据,才会有意义。
      多考虑实际的现实场景,比如在技术的维度上看问题,这么写代码观察验证数据是否会出现数据倾斜的情况,或者关联表的时候是否会出现数据发散的情况,而在业务的维度上看问题,这么写代码是否会发生考虑场景不全,比如业务各表在关联时是否是一对多还是一对一情况,最终的数据结果是否会漏掉特殊场景。
    • 5、在某个大表的大分区数据量很大的情况下,可以考虑实际业务场景抽取出中间表或者临时表,从而达到报表层处理时的优化。
      比如最近在做一个浏览器基础数据指标报表,需要计算次日留存率,还有其他一些指标,我思路是做个报表层任务,把各个需要的指标数据通过子查询的方式关联并计算出来,虽然这样写代码很清晰,但是后面在执行调度任务跑的时候很耗费集群资源,排查原因是浏览器分区的数据量很大,关联计算时查询大表很耗时间,所以最后采用抽取出临时表的方式,之后再从临时表来取数就达到了不用每次都查大表数据的效果了,相当于把需要部分的数据先抽取出来存在中间的临时表。
    • 6、磨炼项:思路要灵活,效率要提高,数据质量要准确,独立能力要增强。
      写代码灵活,这个真的被华哥折服,经常写出代码看起来很冗余,华哥又经常性地赐教... 嗯很服,这个感觉代码写多了,函数api使用多了,多总结才会有所进步吧
    • 7、不要给自己懒惰的理由,之前自己定的很多想学的都没时间认真学习。
      比如Spark、Scala、Shell、Flink、集群资源很多,好久没好好额外学习大数据了。
    最后简单回顾了下工作以来的cvn服务平台,处理的71个数据需求服务,感觉基本都是简单小任务,希望后续能配合好组里工作内容和提升好个人技能实力。有规划、有目标、哈哈还有嘴里总喊着不想加班的虚假年轻人,讲真、小江自我感觉还是菜的一批。
    实习至今处理的任务.png

    二、假期娱乐篇

    五一假期开始于2天前下班的那个晚上,兴冲冲地搭公车奔向港湾一号跟小老哥会和,开启第一顿酸菜鱼,讲真,饱到了,好吃。 江渔儿酸菜鱼 之后第二天写了几页毕业答辩ppt后就跟约了很久的朋友跑出去吃东西了,原本是渔记,然而遇到的停电暂停营业的闭门羹,于是转向奥园广场的鸡煲,也还可以。 叹佬鸡煲 鸡煲特写 吃完后来还去剪了个清爽的头发,该办的事基本办完,剩下的3天就是赶紧宅在家修复我毕设系统的bug,赶紧录视频,赶紧写ppt。

    相关文章

      网友评论

          本文标题:小江工作复盘

          本文链接:https://www.haomeiwen.com/subject/vlcrghtx.html