Python 快速统计数据的去重数和去重数据

作者: 派派森森 | 来源:发表于2019-01-28 13:38 被阅读1次

Python 快速统计数据的去重数和去重数据
python数据去重
R 语言去重数据
Spark经典案例之数据去重
Spark经典案例之数据去重
Spark经典案例之数据去重
Spark经典案例之数据去重
Spark经典案例之数据去重
Spark经典案例之数据去重
mysql字符串区分大小写的问题

之前用 Python 写过一个脚本，用来处理上千万用户的一些数据，其中有一个需求是统计用户的某一数据的去重数量。为了加快程序的速度，我启用了多进程。但不幸的是，程序跑了近一个星期，还没处理完。这时，我感觉到了不对，于是开始查看程序的性能瓶颈。

对于统计去重数，我是将用户的数据放到一个列表中，然后用 len(set(data)) 去统计去重数量。刚开始我以为这的数据量并不大，每个用户的数据不会过百，我并没有注意到有的用户会有上万条的数据，因此消耗了大量的时间（其实我的脚本消耗时间最大的地方是因为从远程 redis 中取大量数据时发生长时间的阻塞，甚至连接超时，最后我采用的方式分而治之，每次取少量的数据，这样大大的提高了性能）。

为了做优化，我开始寻求高效的方法。我发现，有大量的人认为采用字典效率会更高，即：

data_unique = {}.fromkeys(data).keys()
len(data_unique)
欢迎加入我的QQ群`923414804`与我一起学习，群里有我学习过程中整理的大量学习资料。加群即可免费获取

于是，我做了下测试：

In [1]: import random

In [2]: data = [random.randint(0, 1000) for _ in xrange(1000000)]

In [3]: %timeit len(set(data))
10 loops, best of 3: 39.7 ms per loop

In [4]: %timeit len({}.fromkeys(data).keys())
10 loops, best of 3: 43.5 ms per loop

由此可见，采用字典和采用集合的性能是差不多的，甚至可能还要慢些。

在 Python 中其实有很多高效的库，例如用 numpy、pandas 来处理数据，其性能接近于 C 语言。那么，我们就用 numpy 和 pandas 来解决这个问题，这里我还比较了获取去重数据的性能，代码如下：

import collections
import random as py_random
import timeit

import numpy.random as np_random
import pandas as pd

DATA_SIZE = 10000000

def py_cal_len():
    data = [py_random.randint(0, 1000) for _ in xrange(DATA_SIZE)]
    len(set(data))

def pd_cal_len():
    data = np_random.randint(1000, size=DATA_SIZE)
    data = pd.Series(data)
    data_unique = data.value_counts()
    data_unique.size

def py_count():
    data = [py_random.randint(0, 1000) for _ in xrange(DATA_SIZE)]
    collections.Counter(data)

def pd_count():
    data = np_random.randint(1000, size=DATA_SIZE)
    data = pd.Series(data)
    data.value_counts()

# Script starts from here

if __name__ == "__main__":
    t1 = timeit.Timer("py_cal_len()", setup="from __main__ import py_cal_len")
    t2 = timeit.Timer("pd_cal_len()", setup="from __main__ import pd_cal_len")
    t3 = timeit.Timer("py_count()", setup="from __main__ import py_count")
    t4 = timeit.Timer("pd_count()", setup="from __main__ import pd_count")

    print t1.timeit(number=1)
    print t2.timeit(number=1)
    print t3.timeit(number=1)
    print t4.timeit(number=1)

运行结果：

12.438587904
0.435907125473
14.6431810856
0.258564949036

利用 pandas 统计数据的去重数和去重数据，其性能是 Python 原生函数的 10 倍以上。

Python 快速统计数据的去重数和去重数据
之前用 Python 写过一个脚本，用来处理上千万用户的一些数据，其中有一个需求是统计用户的某一数据的去重数量。为...
python数据去重
将数据转换为集合
R 语言去重数据
1、全表去重：dateTable %>% unique() 2、依据部分字段去重： a <-dateTable ...
Spark经典案例之数据去重
/** 业务场景：数据去重问题 Created by YJ on 2017/2/7. 统计数据,尽量用reduce...
Spark经典案例之数据去重
/** 业务场景：数据去重问题 Created by YJ on 2017/2/7. 统计数据,尽量用reduce...
Spark经典案例之数据去重
/** 业务场景：数据去重问题 Created by YJ on 2017/2/7. 统计数据,尽量用reduce...
Spark经典案例之数据去重
/** 业务场景：数据去重问题 Created by YJ on 2017/2/7. 统计数据,尽量用reduce...
Spark经典案例之数据去重
/** 业务场景：数据去重问题 Created by YJ on 2017/2/7. 统计数据,尽量用reduce...
Spark经典案例之数据去重
/** 业务场景：数据去重问题 Created by YJ on 2017/2/7. 统计数据,尽量用reduce...
mysql字符串区分大小写的问题
背景：最近有个需求，需要根据品牌名(varchar)去重数据。去重后发现数据有丢失。问题：MySql中字符串大小写...

Python 快速统计数据的去重数和去重数据

相关文章

Python 快速统计数据的去重数和去重数据

python数据去重

R 语言去重数据

Spark经典案例之数据去重

Spark经典案例之数据去重

Spark经典案例之数据去重

Spark经典案例之数据去重

Spark经典案例之数据去重

Spark经典案例之数据去重

mysql字符串区分大小写的问题

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python之佳

Python小哥哥

Python基础

Python