力卉编程 | 算法：480万数据的去重

作者: 力卉编程 | 来源:发表于2020-01-10 16:22 被阅读0次

480万个ID(1~7位)数据的去重，算法自己设计，随便什么都可以，只要能返回去重后的数据就可以。

被否定的思路：
1、不能使用Excel（最大限度65536）
2、不能使用字符串隔开的方式逐步查找
-- 测试发现，26万能返回数据，480万不行
-- 用python最后运行不出结果而且导致python重置

测试过的处理方式：

10万数据一个组（文件）：花费总时间70分钟，分组：40分钟，去重合并：30分钟
1000数据一个组（文件）：花费总时间40分钟，分组30分钟，去重合并10分钟
以上为真实数据，分组越多时间花费越少。

把CID作为主键，出错不插入方式。
数据表如下：
CREATE TABLE temp1 (
cid varchar(8) NOT NULL,
PRIMARY KEY (cid)
) CHARSET=utf8;
花费时间：36分钟

a）采用多表分组的方式是否会提高SQL处理方式的时间。
b）C++方案是否优于python读写文件方案
c）10数据一个组（文件）方案是否可行？（读文件时间成本和分组成本应当有制约关系）

如果您有更好的解决方案请留言探讨。谢谢。
以上都是基于python的数据测试

文|力卉编程

网友评论

本文标题：力卉编程 | 算法：480万数据的去重

本文链接：https://www.haomeiwen.com/subject/mxapactx.html

力卉编程 | 算法：480万数据的去重