2019-03-12-Hive的数据抽样

作者: 此星爷非彼星爷 | 来源:发表于2019-03-12 22:41 被阅读5次

最近在做Hive的数据抽样，基于以下考虑：

效率：数据量大的时候，可以给Hive 的使用者提供抽样数据，供他们开发、测试，提高效率。
安全：有些场景，不便于提供全量数据给开发者，但是又不能影响建模效果，这时，就需要随机抽样数据给开发者。

要求：

随机
抽取数据量可控
分区：分区信息需要保留，数据整体随机，分区内也要随机

1. 抽样方案

1.1 方案一：Block Sampling

Hive 本身提供了抽样函数，使用TABLESAMPLE 抽取指定的 行数/比例/大小，举例：

CREATE TABLE XXX AS SELECT * FROM YYY TABLESAMPLE(1000 ROWS);
CREATE TABLE XXX AS SELECT * FROM YYY TABLESAMPLE (20 PERCENT); // 测试未生效
CREATE TABLE XXX AS SELECT * FROM YYY TABLESAMPLE(1M);          // 测试未生效

缺点：不随机。该方法实际上是按照文件中的顺序返回数据，对分区表，从头开始抽取，可能造成只有前面几个分区的数据。

优点：速度快。

1.2 方案二：分桶表抽样（Smapling Bucketized Table）

利用分桶表，随机分到多个桶里，然后抽取指定的一个桶。举例：随机分到10个桶，抽取第一个桶。

CREATE TABLE XXX AS SELECT * FROM YYY TABLESAMPLE (BUCKET 1 OUT OF 10 ON rand());

优点：随机，测试发现，速度比方法3的rand()快。

1.3 方案三：随机抽样 rand

原理：利用rand()函数进行抽取，rand() 返回一个0到1之间的double 值。

法1

CREATE TABLE XXX AS
SELECT * FROM YYY
    ORDER BY rand()
    limit 10000

此时，可以提供真正的随机抽样，但是，需要在单个reducer中进行总排序，速度慢。

法2

CREATE TABLE XXX AS
SELECT * FROM YYY
    SORT BY rand()
    limit 10000

Hive 提供了sort by，sort by 提供了单个reducer 内的排序功能，但不保证整体有序，上面的语句是不保证随机性的。

法3

CREATE TABLE XXX AS
SELECT * FROM YYY
    where rand()<0.002
    distribute by rand()
    sort by rand()
    limit 10000;

where 条件首先进行一次map 端的优化，减少reducer 需要处理的数据量，提高速度。distribute by 将数据随机分布，然后在每个reducer内进行随机排序，最终取10000条数据（如果数据量不足，可以提高where条件的rand过滤值）

缺点：速度慢

优点：随机

法4

CREATE TABLE XXX AS
SELECT * FROM YYY
    where rand()<0.002
    cluster by rand()
    limit 10000;

cluster by 的功能是 distribute by 和 sort by的功能相结合，在上面的例子中，distribute by rand() sort by rand() 进行了两次随机，cluster by rand() 仅一次随机，那么，会影响最终的抽样结果吗？

2. 分区

但是，上面的方法，会丢失掉分区信息！

所以，需要结合动态分区：

step1: create table
step2: 利用动态分区，插入select 出来的结果。

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
INSERT INTO TABLE XXX partition(thedate) SELECT * FROM YYY TABLESAMPLE (BUCKET 1 OUT OF 10 ON rand());

wxqr.jpg

2019-03-12-Hive的数据抽样

1. 抽样方案

1.1 方案一：Block Sampling

1.2 方案二：分桶表抽样（Smapling Bucketized Table）

1.3 方案三：随机抽样 rand

2. 分区

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据爬虫Python AI Sql

大数据

大数据，机器学习，人工智能

玩转大数据

hive

Hive在简书

2019-03-12-Hive的数据抽样

1. 抽样方案

1.1 方案一：Block Sampling

1.2 方案二：分桶表抽样 （Smapling Bucketized Table）

1.3 方案三：随机抽样 rand

2. 分区

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据 爬虫Python AI Sql

大数据

大数据，机器学习，人工智能

玩转大数据

hive

Hive在简书

1.2 方案二：分桶表抽样（Smapling Bucketized Table）

大数据爬虫Python AI Sql