美文网首页
Hive开发自定义函数UDF

Hive开发自定义函数UDF

作者: geekAppke | 来源:发表于2018-11-30 10:43 被阅读14次

    Hive 内置函数

    Date Functions
    Conditional Functions
    Misc. Functions
    

    Hive自定义函数

    • UDF(User-Defined-Function) 一进一出
    • UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/min
    • UDTF(User-Defined Table-Generating Functions) 一进多出,如explode()
      使用方式 :在HIVE会话中add 自定义函数的jar文件,然后创建function继而使用函数

    UDF 开发

    1. UDF函数可以直接应用于select语句,对查询结构做格式化处理后,再输出内容
    2. 编写UDF函要注意以下几点:
      a. 自定义UDF需要继承org.apache.hadoop.hive.ql.exec.UDF
      b. 需要实现evaluate函数,evaluate函数支持重载
    3. 步骤
      a. 把程序打包放到目标机器上去;
      b. 进入hive客户端,添加jar包:hive> add jar /run/jar/udf_test.jar;
      c. 创建临时函数:hive> CREATE TEMPORARY FUNCTION add_example AS 'hive.udf.Add';
      d. 销毁临时函数:hive> DROP TEMPORARY FUNCTION add_example;
      e. 查询HQL语句:
    SELECT add_example(8, 9) FROM scores;
    SELECT add_example(scores.math, scores.art) FROM scores;
    SELECT add_example(6, 7, 8, 6.8) FROM scores;
    

    Hive的UDF开发只需要重构UDF类的evaluate函数即可

    package com.hrj.hive.udf;
    import org.apache.hadoop.hive.ql.exec.UDF;
    public class helloUDF extends UDF {
        public String evaluate(String str) {
            try {
                return "HelloWorld " + str;
            } catch (Exception e) {
                return null;
            }
        }
    } 
    

    Hive 自定义函数调用

    将该java文件编译成helloudf.jar
    hive> add jar helloudf.jar;
    hive> create temporary function helloworld as 'com.hrj.hive.udf.helloUDF';
    hive> select helloworld(t.col1) from t limit 10;
    hive> drop temporary function helloworld;
    

    1.helloworld为临时的函数,所以每次进入hive都需要add jar以及create temporary操作
    2.UDF只能实现一进一出的操作,如果需要实现多进一出,则需要实现UDAF

    Hive复合数据类型 Hive操作复合类型

    相关文章

      网友评论

          本文标题:Hive开发自定义函数UDF

          本文链接:https://www.haomeiwen.com/subject/jsaqcqtx.html