美文网首页
力卉编程 | 算法:480万数据的去重

力卉编程 | 算法:480万数据的去重

作者: 力卉编程 | 来源:发表于2020-01-10 16:22 被阅读0次

480万个ID(1~7位)数据的去重,算法自己设计,随便什么都可以,只要能返回去重后的数据就可以。

被否定的思路:
1、不能使用Excel(最大限度65536)
2、不能使用字符串隔开的方式逐步查找
-- 测试发现,26万能返回数据,480万不行
-- 用python最后运行不出结果而且导致python重置

测试过的处理方式:

1、文件系统分组,然后使用字符串隔开的方式查找

10万数据一个组(文件):花费总时间70分钟,分组:40分钟,去重合并:30分钟
1000数据一个组(文件):花费总时间40分钟,分组30分钟,去重合并10分钟
以上为真实数据,分组越多时间花费越少。

2、数据库插入方式:

把CID作为主键,出错不插入方式。
数据表如下:
CREATE TABLE temp1 (
cid varchar(8) NOT NULL,
PRIMARY KEY (cid)
) CHARSET=utf8;
花费时间:36分钟

3、另外可尝试方案:

a)采用多表分组的方式是否会提高SQL处理方式的时间。
b)C++方案是否优于python读写文件方案
c)10数据一个组(文件)方案是否可行?(读文件时间成本和分组成本应当有制约关系)

如果您有更好的解决方案请留言探讨。谢谢。
以上都是基于python的数据测试

文|力卉编程

相关文章

  • 力卉编程 | 算法:480万数据的去重

    480万个ID(1~7位)数据的去重,算法自己设计,随便什么都可以,只要能返回去重后的数据就可以。 被否定的思路:...

  • python笔记 | 简单人脸识别

    整理 | 力卉编程

  • 回答力卉编程

    简友力卉编程@Mr_稻香老农 出口成章,怀疑你是古代人,哈哈 @力卉编程 啊,不是,就是多读了几首打油诗,所以潜移...

  • 数据结构与算法参考书籍

    数据结构与算法分析 算法 算法导论 java编程思想

  • 力卉编程 | 算法:printf 耗时还是cout耗时?

    问题:printf 耗时还是cout耗时?平常我们printf 和cout都可以打印调试信息,但是两个的效率是不一...

  • Wifi笔记 | wifi协议802.11

    802.11的发展史 工作方式(AP、: 速率: 传播途径: 文|力卉编程

  • 数据结构和算法

    编程就是算法和数据结构,数据结构和算法是编程的灵魂 数据结构和算法能够帮助我们做很多事情, 一、数据结构的基本功能...

  • 程序概述

    what 程序 == 指令+数据指令 == 算法数据 == 数据结构程序 == 算法 + 数据结构面向对象编程: ...

  • 杂思

    对于编程语言来说,很多基础的,比如,算法和数据结构都是应该掌握的,编程语言再怎么变化,算法和数据结构都是可以应用的...

  • 信息学与数学、奥数的关系

    信息学主要的课程是编程语言、数据结构和算法。信息学竞赛也是以算法竞赛为主。 算法 = 计算方法 + 编程语言 + ...

网友评论

      本文标题:力卉编程 | 算法:480万数据的去重

      本文链接:https://www.haomeiwen.com/subject/mxapactx.html