现在有一个之前的数据仓库,里面的数据是我计划用来进行预测用的,但是只有应用和数据库,缺乏表说明,我计划讲数据梳理并整理成可分析的。
首先是运行应用,根据页面的逻辑提示以及对应的SQL脚本,完成数据库以及字段的标注。这里一开始我写的是独立的文档,后来我觉得直接标注到数据库上最好,不行的话就用ETL工具简单清洗后加上字段标注。
然后,就是数据库设计的表关系的分析,根据外键可以找到表之间的硬关系。
然后对数据分布记性分析,看看在一个区间内哪些数据集中度高,哪些地方是缺失的。
以后需要围绕一个主题对象进行特征分析,这个之前需要进行一些ETL,讲多个特征数据聚集到一个对象上。然后分析数据特性之间的相关性以及数据特征的趋势,在这里求导出回归函数以及做特定零件的用量趋势分析。
网友评论