美文网首页我爱编程
BDA数据读取过程时间记录2018-04-22

BDA数据读取过程时间记录2018-04-22

作者: 开子的私家地 | 来源:发表于2018-04-23 02:25 被阅读39次

    没找到pandas直接给重复数据排序,自己写了个库:

    hash函数: 将原始数据HASH,基本是HASH成9位十进制
    原数据在14-18位数之间,发生碰撞的概率很低。
    sort函数:给不同的数据标注ID,递增。(这应该不是个好的处理方式待改进)
    前提: 假设若有数据不同,只在相邻不同。,所以不适用一般情况
    https://github.com/tangkaisky/DataMining/tree/master/IS6400BDA
    (待完善:分块读取处理)
    hash处理1w*27(实际处理7列):74秒

    hash start
    0.0944162694555
    one+25% 2.67954554452
    ...
    ...
    one+25% 71.079399709
    hash done
    74.1000116805
    

    sort处理1w*27(实际处理7列)

    sort start
    0.651374954121
    one+25% 3.27572733257
    one+25% 5.80004310553
    ...
    ...
    one+25% 73.1348870874
    sort finish
    73.4082792926
    

    sort处理4.7w*27(实际处理7列)

    preproc 47000
    sort start
    0.118014838665
    one+25% 32.635356019
    one+25% 63.6570617567
    ...
    ...
    one+25% 885.678654599
    sort finish
    887.011638494
    

    8w

    preproc 80000
    sort start
    1.46617461846e-06
    one+25% 106.000368499
    one+25% 211.681905597
    

    相关文章

      网友评论

        本文标题:BDA数据读取过程时间记录2018-04-22

        本文链接:https://www.haomeiwen.com/subject/jwehlftx.html