美文网首页
数据工程师素养——数据规范

数据工程师素养——数据规范

作者: 朝思暮巷 | 来源:发表于2020-05-21 21:53 被阅读0次

数据规范很重要,尤其对那些下游链路使用到的主题表。规范主要包含:

1、字段类型最小化

什么样的数据使用什么样的类型存储,这一点看似细节,其实很重要。字段类型是字段最重要属性,是除字段名称外,最能提现字段含义。在懒得写 comment 的前提下,字段类型就显得尤为重要。一些做数据的新手,接数时看着上游字段名,稀里糊涂就定义的字段类型,或者和上游类型保持一致(上游也不一定规范),这都是不负责任的做法。接数前,要对数据有个大概的了解,字段类型就是最重要的一环。

比如:click 使用 double 类型,其他使用者就会疑惑,点击难道还有小数位?而且下游如果将 click 定义为 bigint 还需要使用 ROUND()函数转型。

MySQL多使用 decimal(20,4) 来规定数据长度与小数位,或者 double(20,4)。数字也要根据范围定义为合理的 tinyint、int、bigint 等等

2、过滤无效数据行

根据维度进行GROUP BY 以合并指标,这已经是不需要说的数据建设规范。因为从上游接入的字段减少时,不做GROUP BY 合并指标,则会产生很多维度相同的行(指标指报表中可求和的列,维度指不可求和的列)。除了上述减少数据量的办法,还有一种往往被忽视,就是过滤无效数据。这种过滤并不改变口径,而是过滤所有指标都为 0 的空行。或者其他清洗无效的数据。

另外,数据库范式,当然最好遵守。不过,像笔者所从事的数据报表,很难做到第三范式,即不存在数据的局部依赖。比如:用户信息在各个链路中会被多次重复使用,这放在链路建设时详解。

相关文章

  • 数据工程师素养——数据规范

    数据规范很重要,尤其对那些下游链路使用到的主题表。规范主要包含: 1、字段类型最小化 什么样的数据使用什么样的类型...

  • 融360

    数据研发工程师 岗位职责: 1. 负责数据平台建设。规范底层数据存储,结构化查询逻辑,方便快捷获取数据 2. 负责...

  • 数据工程师素养——开篇

    我是后厂村某厂一名数据工程师,做数据ETL一年半左右,积累下一些数据建设经验以及数据库排错技巧(像HIVE,MyS...

  • 阿里数据库开发规范:谁还敢说你的数据库设计的“烂”

    数据库设计几个规范: 数据库命名规范、数据库基本设计规范、数据库索引设计规范、数据库字段设计规范、数据库SQL开发...

  • Mysql 规范

    Mysql 规范 数据库命名规范总结 数据库基本设计规范 索引设计规范 数据库字段设计规范 数据库SQL开发规范 ...

  • 适合各厂使用的 MySQL 团队开发规范,太详细了,建议收藏!

    数据库对象命名规范 数据库对象 数据库对象全局命名规范 数据库命名规范 表命名规范 字段命名规范 索引命名规范 视...

  • mockjs学习

    Mock.js语法规范包括两部分:数据模板定义规范和数据占位符定义规范。 1.数据模板定义规范: 数据模板中的每个...

  • 数据素养

    未来教育论坛专家观点分享,花洁,上海市嘉定区教育学院

  • 数据素养

    具有数据素养,意味着你知道推荐意见不一定都是正确的。做任何决定时都要在风险与回报之间做出取舍,即使大数据可以将不确...

  • 数据仓库架构师的岗位工作职责及应具备的能力

    技术研发类岗位包括大数据架构师、数据仓库架构师、大数据开发工程师、数据采集工程师、数据仓库开发工程师、系统开发工程...

网友评论

      本文标题:数据工程师素养——数据规范

      本文链接:https://www.haomeiwen.com/subject/pzhxahtx.html