Hive的SQL可以通过用户定义的函数(UDF),用户定义的聚合(UDAF)和用户定义的表函数(UDTF)进行扩展。
当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF)。
UDF、UDAF、UDTF的区别:
UDF(User-Defined-Function)一进一出
UDAF(User-Defined Aggregation Funcation)聚集函数,多进一出
UDTF(User-Defined Table-Generating Functions)一进多出,如lateral view explore()
用户自定义函数(user defined function),针对单条记录。编写一个UDF,需要继承UDF类,并实现evaluate()函数。在查询执行过程中,查询中对应的每个应用到这个函数的地方都会对这个类进行实例化。对于每行输入都会调用到evaluate()函数。而evaluate()函数处理的值会返回给Hive。同时用户是可以重载evaluate方法的。Hive会像Java的方法重载一样,自动选择匹配的方法.
一、应用案例
1)全角转半角
packagecom.sjck.hive.udf;mons.lang.StringUtils;importorg.apache.hadoop.hive.ql.exec.UDF;/*** 全角转半角
*@authorAdministrator
**/
public class ToSingleByte extendsUDF {public staticString evaluate(String val) {if(StringUtils.isNotBlank(val)){char c[] =val.toCharArray();for (int i = 0; i < c.length; i++) {if (c[i] == '\u3000') {
c[i]= ' ';
}else if (c[i] > '\uFF00' && c[i] < '\uFF5F') {
c[i]= (char) (c[i] - 65248);
}
}
String returnString= newString(c);returnreturnString;
}return "";
}
}
View Code
2)身份证信息验证
packagecom.sjck.hive.udf.util;importjava.text.ParseException;importjava.text.SimpleDateFormat;importjava.util.Calendar;importjava.util.Date;importorg.slf4j.Logger;importorg.slf4j.LoggerFactory;/***
* 身份证合法性校验
*
*
*
* --15位身份证号码:第7、8位为出生年份(两位数),第9、10位为出生月份,第11、12位代表出生日期,第15位代表性别,奇数为男,偶数为女。
* --18位身份证号码:第7、8、9、10位为出生年份(四位数),第11、第12位为出生月份,第13、14位代表出生日期,第17位代表性别,奇数为男,偶数为女。
* 最后一位为校验位
*
*
*@author313921*/
public classIdCardUtil {private static Logger logger = LoggerFactory.getLogger(IdCardUtil.class);/***
* 省、直辖市代码表:
* 11 : 北京 12 : 天津 13 : 河北 14 : 山西 15 : 内蒙古
* 21 : 辽宁 22 : 吉林 23 : 黑龙江 31 : 上海 32 : 江苏
* 33 : 浙江 34 : 安徽 35 : 福建 36 : 江西 37 : 山东
* 41 : 河南 42 : 湖北 43 : 湖南 44 : 广东 45 : 广西 46 : 海南
* 50 : 重庆 51 : 四川 52 : 贵州 53 : 云南 54 : 西藏
* 61 : 陕西 62 : 甘肃 63 : 青海 64 : 宁夏 65 : 新疆
* 71 : 台湾
* 81 : 香港 82 : 澳门
* 91 : 国外
*
*/
private static String[] cityCode = { "11", "12", "13", "14", "15", "21","22", "23", "31", "32", "33", "34", "35", "36", "37", "41", "42","43", "44", "45", "46", "50", "51", "52", "53", "54", "61", "62","63", "64", "65", "71", "81", "82", "91"};/*** 每位加权因子*/
private static int power[] = { 7, 9, 10, 5, 8, 4, 2, 1, 6, 3, 7, 9, 10, 5,8, 4, 2};/*** 验证所有的身份证的合法性
*
*@paramidcard
* 身份证
*@return合法返回true,否则返回false*/
public static booleanisValidatedAllIdcard(String idcard) {if (idcard == null || "".equals(idcard)) {return false;
}int s=15;if (idcard.length() ==s) {returnvalidate15IDCard(idcard);
}int s1=18;if(idcard.length()==s1) {returnvalidate18Idcard(idcard);
}return false;
}/***
* 判断18位身份证的合法性
*
* 根据〖中华人民共和国国家标准GB11643-1999〗中有关公民身份号码的规定,公民身份号码是特征组合码,由十七位数字本体码和一位数字校验码组成。
* 排列顺序从左至右依次为:六位数字地址码,八位数字出生日期码,三位数字顺序码和一位数字校验码。
*
* 顺序码: 表示在同一地址码所标识的区域范围内,对同年、同月、同 日出生的人编定的顺序号,顺序码的奇数分配给男性,偶数分配 给女性。
*
*
* 1.前1、2位数字表示:所在省份的代码; 2.第3、4位数字表示:所在城市的代码; 3.第5、6位数字表示:所在区县的代码;
* 4.第7~14位数字表示:出生年、月、日; 5.第15、16位数字表示:所在地的派出所的代码;
* 6.第17位数字表示性别:奇数表示男性,偶数表示女性;
* 7.第18位数字是校检码:也有的说是个人信息码,一般是随计算机的随机产生,用来检验身份证的正确性。校检码可以是0~9的数字,有时也用x表示。
*
*
* 第十八位数字(校验码)的计算方法为: 1.将前面的身份证号码17位数分别乘以不同的系数。从第一位到第十七位的系数分别为:7 9 10 5 8 4
* 2 1 6 3 7 9 10 5 8 4 2
*
*
* 2.将这17位数字和系数相乘的结果相加。
*
*
* 3.用加出来和除以11,看余数是多少
*
* 4.余数只可能有0 1 2 3 4 5 6 7 8 9 10这11个数字。其分别对应的最后一位身份证的号码为1 0 X 9 8 7 6 5 4 3
* 2。
*
* 5.通过上面得知如果余数是2,就会在身份证的第18位数字上出现罗马数字的Ⅹ。如果余数是10,身份证的最后一位号码就是2。
*
*
*@paramidcard
*@return
*/
public static booleanvalidate18Idcard(String idcard) {if (idcard == null) {return false;
}//非18位为假
int s=18;if (idcard.length() !=s) {
logger.error("身份证位数不正确!");return false;
}//获取前17位
String idcard17 = idcard.substring(0, 17);//前17位全部为数字
if (!isDigital(idcard17)) {return false;
}
String provinceid= idcard.substring(0, 2);//校验省份
if (!checkProvinceid(provinceid)) {return false;
}//校验出生日期
String birthday = idcard.substring(6, 14);
SimpleDateFormat sdf= new SimpleDateFormat("yyyyMMdd");try{
Date birthDate=sdf.parse(birthday);
String tmpDate=sdf.format(birthDate);//出生年月日不正确
if (!tmpDate.equals(birthday)) {return false;
}
}catch(ParseException e1) {return false;
}//获取第18位
String idcard18Code = idcard.substring(17, 18);char c[] =idcard17.toCharArray();int bit[] =converCharToInt(c);int sum17 = 0;
sum17=getPowerSum(bit);//将和值与11取模得到余数进行校验码判断
String checkCode =getCheckCodeBySum(sum17);if (null ==checkCode) {return false;
}//将身份证的第18位与算出来的校码进行匹配,不相等就为假
if (!idcard18Code.equalsIgnoreCase(checkCode)) {return false;
}//System.out.println("正确");
return true;
}/*** 校验15位身份证
*
*
* 只校验省份和出生年月日
*
*
*@paramidcard
*@return
*/
public static booleanvalidate15IDCard(String idcard) {if (idcard == null) {return false;
}//非15位为假
int s=15;if (idcard.length() !=s) {return false;
}//15全部为数字
if (!isDigital(idcard)) {return false;
}
String provinceid= idcard.substring(0, 2);//校验省份
if (!checkProvinceid(provinceid)) {return false;
}
String birthday= idcard.substring(6, 12);
SimpleDateFormat sdf= new SimpleDateFormat("yyMMdd");try{
Date birthDate=sdf.parse(birthday);
String tmpDate=sdf.format(birthDate);//身份证日期错误
if (!tmpDate.equals(birthday)) {return false;
}
}catch(ParseException e1) {return false;
}return true;
}/*** 将15位的身份证转成18位身份证
*
*@paramidcard
*@return
*/
public staticString convertIdcarBy15bit(String idcard) {if (idcard == null) {return null;
}//非15位身份证
int s=15;if (idcard.length() !=s) {return null;
}//15全部为数字
if (!isDigital(idcard)) {return null;
}
String provinceid= idcard.substring(0, 2);//校验省份
if (!checkProvinceid(provinceid)) {return null;
}
String birthday= idcard.substring(6, 12);
SimpleDateFormat sdf= new SimpleDateFormat("yyMMdd");
Date birthdate= null;try{
birthdate=sdf.parse(birthday);
String tmpDate=sdf.format(birthdate);//身份证日期错误
if (!tmpDate.equals(birthday)) {return null;
}
}catch(ParseException e1) {return null;
}
Calendar cday=Calendar.getInstance();
cday.setTime(birthdate);
String year=String.valueOf(cday.get(Calendar.YEAR));
String idcard17= idcard.substring(0, 6) + year + idcard.substring(8);char c[] =idcard17.toCharArray();
String checkCode= "";//将字符数组转为整型数组
int bit[] =converCharToInt(c);int sum17 = 0;
sum17=getPowerSum(bit);//获取和值与11取模得到余数进行校验码
checkCode =getCheckCodeBySum(sum17);//获取不到校验位
if (null ==checkCode) {return null;
}//将前17位与第18位校验码拼接
idcard17 +=checkCode;returnidcard17;
}/*** 校验省份
*
*@paramprovinceid
*@return合法返回TRUE,否则返回FALSE*/
private static booleancheckProvinceid(String provinceid) {for(String id : cityCode) {if(id.equals(provinceid)) {return true;
}
}return false;
}/*** 数字验证
*
*@paramstr
*@return
*/
private static booleanisDigital(String str) {return str.matches("^[0-9]*$");
}/*** 将身份证的每位和对应位的加权因子相乘之后,再得到和值
*
*@parambit
*@return
*/
private static int getPowerSum(int[] bit) {int sum = 0;if (power.length !=bit.length) {returnsum;
}for (int i = 0; i < bit.length; i++) {for (int j = 0; j < power.length; j++) {if (i ==j) {
sum= sum + bit[i] *power[j];
}
}
}returnsum;
}/*** 将和值与11取模得到余数进行校验码判断
*
*@paramcheckCode
*@paramsum17
*@return校验位*/
private static String getCheckCodeBySum(intsum17) {
String checkCode= null;switch (sum17 % 11) {case 10:
checkCode= "2";break;case 9:
checkCode= "3";break;case 8:
checkCode= "4";break;case 7:
checkCode= "5";break;case 6:
checkCode= "6";break;case 5:
checkCode= "7";break;case 4:
checkCode= "8";break;case 3:
checkCode= "9";break;case 2:
checkCode= "x";break;case 1:
checkCode= "0";break;case 0:
checkCode= "1";break;default:
}returncheckCode;
}/*** 将字符数组转为整型数组
*
*@paramc
*@return*@throwsNumberFormatException*/
private static int[] converCharToInt(char[] c) throwsNumberFormatException {int[] a = new int[c.length];int k = 0;for (chartemp : c) {
a[k++] =Integer.parseInt(String.valueOf(temp));
}returna;
}
}
View Code
packagecom.sjck.hive.udf;mons.lang.StringUtils;importorg.apache.hadoop.hive.ql.exec.UDF;importcom.sjck.hive.udf.util.IdCardUtil;/*** 身份证信息验证
*@authorAdministrator
**/
public class VerifiyCardNo extendsUDF {public staticString evaluate(String idcard,String returnType) {if(StringUtils.isNotBlank(idcard)){boolean validated=IdCardUtil.isValidatedAllIdcard(idcard);if(validated){
String gender="未知";
String birthday="未知";
String birthday_region="未知";
idcard=idcard.length()==15?IdCardUtil.convertIdcarBy15bit(idcard):idcard;
String checkCode= String.valueOf(idcard.charAt(16));int parseInt =Integer.parseInt(checkCode);
gender=parseInt%2==0?"女":"男";
returnType=returnType.toUpperCase();if(StringUtils.isNotBlank(returnType)){if("BIRTHDAY".equals(returnType)){
birthday= idcard.substring(6, 14);returnbirthday;
}else if("GENDER".equals(returnType)){returngender;
}else if("BIRTHDAY_REGION".equals(returnType)){
birthday_region=idcard.substring(0, 6);returnbirthday_region;
}
}
}
}return "未知";
}
}
View Code
二、添加jar的三种方式
1)使用add jar jarpath/hive-udf.jar;方法加入
该方法的缺点是每次启动Hive的时候都要从新加入,退出hive就会失效。
2)通过设置hive的配置文件hive-site.xml 加入
在配置文件中增加配置
hive.aux.jars.path
file:///jarpath/hive-udf1.jar,file:///jarpath/hive-udf2.jar
保存即可
该方法比第一种方法方便很多。不需要每次启动Hive执行命令加入,只是配置稍微复杂一些
3)在${HIVE_HOME}下创建auxlib目录,将UDF文件放到该目录中,这样hive在启动时会将其中的jar文件加载到classpath中
这种方法,方便快捷,不需要重启HVIE服务
三、 函数声明:
//创建临时函数
create temporary function toSingleByteas'com.sjck.hive.udf.ToSingleByte';
//创建永久函数
create function toSingleByteas'com.sjck.hive.udf.ToSingleByte';
create function verifiyCardNo as 'com.sjck.hive.udf.VerifiyCardNo';
删除永久函数
drop function toSingleByte;
drop function verifiyCardNo;
个人是将hive的udf 放在 hdfs上
hadoop fs -mkdir/user/hive/udf
hadoop fs -put hive-udf.jar /user/hive/udf/
create function toSingleByteAS 'com.sjck.hive.udf.ToSingleByte' using jar 'hdfs://master01:8020/user/hive/udf/hive-udf.jar';
create function verifiyCardNoAS 'com.sjck.hive.udf.VerifiyCardNo'using jar 'hdfs://master01:8020/user/hive/udf/hive-udf.jar';