美文网首页大数据开发
大数据开发:Hive自定义UDF、UDAF、UDTF 函数

大数据开发:Hive自定义UDF、UDAF、UDTF 函数

作者: 成都加米谷大数据 | 来源:发表于2021-06-10 18:12 被阅读0次

    Hive内置的函数,在实际的大数据分析处理场景下,虽然能够解决大部分的需求,但是遇到比较复杂的场景,既定的函数已经不能很好地解决问题的时候,就需要用到自定义函数了。今天的大数据开发学习分享,我们就来讲讲Hive自定义UDF、UDAF、UDTF 函数。

    一、自定义函数

    Hive 自带了一些函数,比如:regexp_extract/get_json_object等,但是数量有限,当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。

    根据用户自定义函数类别分为以下三种:

    2.1UDF(User-Defined-Function) 用户定义函数 一进一出

    2.2UDAF(User-Defined-Aggregation-Function) 用户定义聚集函数,多进一出类似于:count/max/min

    2.3UDTF(User-Defined-Table-Generating-Functions用户定义表生成函数一进多出。如lateral view explore()

    二 、创建UDF函数

    引入maven依赖

        <dependency>

          <groupId>org.apache.hive</groupId>

          <artifactId>hive-exec</artifactId>

          <version>1.2.0</version>

        </dependency>

    编写一个UDF 类

    1)继承org.apache.hadoop.hive.ql.UDF

    2)重写evaluate

    示例如下:

    public class PrefixUDF extends UDF{

        public String evaluate(String input) {

            Random random = new Random();

            int num = random.nextInt(10);

            return num + "_" + input;

        }

        public String evaluate(String input, int length) {

            Random random = new Random();

            int num = random.nextInt(length);

            return num + "_" + input;

        }

        public static void main(String[] args) {

            PrefixUDF udf = new PrefixUDF();

            System.out.println(udf.evaluate("android"));

        }

    }

    3)打成jar包

    上传到服务器test目录下 test/udf.jar

    三、创建UDAF函数

    User-Defined-Aggregation-Funcation 用户定义聚合函数,可对多行数据产生作用;等同于SQL中常用的SUM(),AVG(),也是聚合函数。

    UDAF实现有简单与通用两种方式:

    简单UDAF因为使用Java反射导致性能损失,而且有些特性不能使用,已经被弃用了;

    另一种涉及两个类:

    AbstractGenericUDAFResolver,GenericUDAFEvaluator

    继承UDAFResolver类,重写 getEvaluator() 方法;

    继承GenericUDAFEvaluator类,生成实例给getEvaluator();

    在GenericUDAFEvaluator类中,重写init()、iterate()、terminatePartial()、merge()、terminate()方法。

    实现示例:

    import org.apache.hadoop.hive.ql.exec.UDAF;

    import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;

    /**

    * @aim:将用户名连成一行 多进一出 依靠内部类进行加工

    *

    */

    public class LinkStr extends UDAF {

        private static String result = "";

        public static class  MyLink implements UDAFEvaluator{

            @Override

            public void init() {

            }

            // 聚合工作,写业务逻辑  一部分map的功能

            public boolean iterate(String name){

                result = result.concat(name);

                return true;

            }

            // 一部分mapper作用,大部分是combiner作用 分组 分割

            public String terminatePartial(){

                return result;

            }

            // partition

            public boolean merge(String name){

                return iterate(name);

            }

            // reduce 的一部分功能

            public String terminate(){

                return result;

            }

        }

    }

    四、创建UDTF函数

    User-Defined Table-Generating Functions,用户定义表生成函数,用来解决输入一行输出多行。

    继承GenericUDTF类,重写initialize(返回输出行信息:列个数,类型), process, close三方法。

    实现示例:

    import org.apache.hadoop.hive.ql.exec.UDFArgumentException;

    import org.apache.hadoop.hive.ql.metadata.HiveException;

    import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;

    import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;

    import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;

    import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;

    import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

    import java.util.ArrayList;

    /**

    * @aim:一对多

    */

    public class SplitMap extends GenericUDTF {

        // 产生语句翻译后的表结构

        @Override

        public StructObjectInspector initialize(ObjectInspector[] argOIs) throws UDFArgumentException {

            ArrayList<String> columns = new ArrayList<String>();

            ArrayList<ObjectInspector> colTypes = new ArrayList<ObjectInspector>();

            // 第一列字段名

            columns.add("col1");

            // 第一列结构类型

            colTypes.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

            columns.add("col2");

            colTypes.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

            return ObjectInspectorFactory.getStandardStructObjectInspector(columns,colTypes);

        }

        @Override

        public void process(Object[] objects) throws HiveException {

            String[] datas = objects[0].toString().split(";");  // [“name:zs”,"age:40"]

            String[] res = new String[2];

            res[0] = datas[0].split(":")[1];

            res[1] = datas[1].split(":")[1];

            // 一行一个forward()

            forward(res);  //把写好的数据上传到上一个表结构

        }

        @Override

        public void close() throws HiveException {

        }

    }

    五、注册成函数

    1.临时函数

    1) Hive Cli执行 add jar test/udf.jar;

    2)CREATE TEMPORARY FUNCTION PrefixUDF AS 'cn.djdemon.PrefixUDF';

    上述临时函数只对当前session有效,有一个比较大的局限性。

    2 . 永久函数

    上传jar包到HDFS目录下

    Hive执行: CREATE FUNCTION dw.PrefixUDF as 'cn.djdemon.PrefixUDF' using jar '/test/udf.jar';

    上述方式可以进行一个UDF函数的永久注册。

    关于Hive自定义UDF、UDAF、UDTF 函数,以上就为大家做了基本的讲解了。Hive自定义函数的部分,是需要结合到实际应用场景去设计的,这也需要对业务和数据足够的了解才行。

    相关文章

      网友评论

        本文标题:大数据开发:Hive自定义UDF、UDAF、UDTF 函数

        本文链接:https://www.haomeiwen.com/subject/fslpeltx.html