经过一段时间的代码阅读,我对历史项目的流程和数据库结构已经有了初步的认知了,确实有了一些可以落地的数据仓库的做法。
首先还是要把原始表全部倒入进来,然后在数据仓库上做数据粗加工。
首先是导出原始表,这里有2个问题,一个是导出多少字段,不少表的字段我也不清楚,但是为了以后的分析,还是导出所有字段,第二个问题是增量还是全量,首先增量,但是要确保每个记录嗯更新时间是有的,这个还需要进一步完善。
然后是历史数据的处理,要多多少?我这里只做到把标志位从字符解析出来单独保存就行。
由于历史数据的处理上,很多标志位没有采用数据库字段的方式,这就导致了无法做到标准的查询一下,所以需要在建立新的标志位,将文本中标志位的内容存放在一段中,例如在合同的开头字母是表示合同类型的,就需要在etl过程中把合同类型单独存放,还好之前做了一些数据清洗,这部分问题不大。
网友评论