背景:今天检查交易数据时候,发现客户给的交易数据集存在重叠,客户一共给了两批数据,第一批给到的截止时间是2020-03-30
,第二批数据给的起始时间是2020-03-01
。也就是说,2020-03-01
到2020-03-30
这段时间的交易数据重复了呀~比较崩溃,因为是和客户确认过,他们给的是新增的交易数据,没想到会给重复的交易数据。
反思:
- 客户说的话,能听,但是一定要自己亲自检查数据,这也是我们乙方的价值所在,引导客户,指导客户,提供价值。
解决措施:
- 不碰旧数据,旧数据是给到了
2020-03-30
- 在新数据上做处理
- 删除数据周期为
2020-03-01
-2020-03-30
的数据 - 提取数据周期在
2020-04-01
当天,以及之后的数据
综合考虑,选择第二个解决措施,筛选出来2020-04-01
之后的数据。
完成上述操作,需要使用到的python代码,做记录如下。
代码① Python 对DataFrame进行排序
dataframe.sort_values(by = 'col_name', axis = 0, ascending = True)
对dataframe进行排序,按照某一列字段进行排序,顺序,也就是说从小到大。
代码② SQL 对DataFrame进行排序
SELECT * FROM t1 ORDER BY col_name ASC | DESC
- ASC 升序
- DESC 降序
网友评论