Hive开发自定义函数UDF

作者: geekAppke | 来源:发表于2018-11-30 10:43 被阅读14次

Hive 内置函数

Date Functions
Conditional Functions
Misc. Functions

Hive自定义函数

UDF(User-Defined-Function) 一进一出
UDAF(User- Defined Aggregation Funcation) 聚集函数，多进一出。Count/max/min
UDTF(User-Defined Table-Generating Functions) 一进多出，如explode()
使用方式：在HIVE会话中add 自定义函数的jar文件，然后创建function继而使用函数

UDF 开发

UDF函数可以直接应用于select语句，对查询结构做格式化处理后，再输出内容
编写UDF函要注意以下几点：
a. 自定义UDF需要继承org.apache.hadoop.hive.ql.exec.UDF
b. 需要实现evaluate函数，evaluate函数支持重载
步骤
a. 把程序打包放到目标机器上去；
b. 进入hive客户端，添加jar包：hive> add jar /run/jar/udf_test.jar;
c. 创建临时函数：hive> CREATE TEMPORARY FUNCTION add_example AS 'hive.udf.Add';
d. 销毁临时函数：hive> DROP TEMPORARY FUNCTION add_example;
e. 查询HQL语句：

SELECT add_example(8, 9) FROM scores;
SELECT add_example(scores.math, scores.art) FROM scores;
SELECT add_example(6, 7, 8, 6.8) FROM scores;

Hive的UDF开发只需要重构UDF类的evaluate函数即可

package com.hrj.hive.udf;
import org.apache.hadoop.hive.ql.exec.UDF;
public class helloUDF extends UDF {
    public String evaluate(String str) {
        try {
            return "HelloWorld " + str;
        } catch (Exception e) {
            return null;
        }
    }
}

Hive 自定义函数调用

将该java文件编译成helloudf.jar
hive> add jar helloudf.jar;
hive> create temporary function helloworld as 'com.hrj.hive.udf.helloUDF';
hive> select helloworld(t.col1) from t limit 10;
hive> drop temporary function helloworld;

1.helloworld为临时的函数，所以每次进入hive都需要add jar以及create temporary操作
2.UDF只能实现一进一出的操作，如果需要实现多进一出，则需要实现UDAF

Hive复合数据类型

Hive操作复合类型

网友评论

本文标题：Hive开发自定义函数UDF

本文链接：https://www.haomeiwen.com/subject/jsaqcqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！