200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > hive 转拼音udf_Hive 自定义UDF函数

hive 转拼音udf_Hive 自定义UDF函数

时间:2019-02-10 02:34:32

相关推荐

hive 转拼音udf_Hive 自定义UDF函数

Hive的SQL可以通过用户定义的函数(UDF),用户定义的聚合(UDAF)和用户定义的表函数(UDTF)进行扩展。

当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF)。

UDF、UDAF、UDTF的区别:

UDF(User-Defined-Function)一进一出

UDAF(User-Defined Aggregation Funcation)聚集函数,多进一出

UDTF(User-Defined Table-Generating Functions)一进多出,如lateral view explore()

用户自定义函数(user defined function),针对单条记录。编写一个UDF,需要继承UDF类,并实现evaluate()函数。在查询执行过程中,查询中对应的每个应用到这个函数的地方都会对这个类进行实例化。对于每行输入都会调用到evaluate()函数。而evaluate()函数处理的值会返回给Hive。同时用户是可以重载evaluate方法的。Hive会像Java的方法重载一样,自动选择匹配的方法.

一、应用案例

1)全角转半角

packagecom.sjck.hive.udf;mons.lang.StringUtils;importorg.apache.hadoop.hive.ql.exec.UDF;/*** 全角转半角

*@authorAdministrator

**/

public class ToSingleByte extendsUDF {public staticString evaluate(String val) {if(StringUtils.isNotBlank(val)){char c[] =val.toCharArray();for (int i = 0; i < c.length; i++) {if (c[i] == '\u3000') {

c[i]= ' ';

}else if (c[i] > '\uFF00' && c[i] < '\uFF5F') {

c[i]= (char) (c[i] - 65248);

}

}

String returnString= newString(c);returnreturnString;

}return "";

}

}

View Code

2)身份证信息验证

packagecom.sjck.hive.udf.util;importjava.text.ParseException;importjava.text.SimpleDateFormat;importjava.util.Calendar;importjava.util.Date;importorg.slf4j.Logger;importorg.slf4j.LoggerFactory;/***

* 身份证合法性校验

*

*

*

* --15位身份证号码:第7、8位为出生年份(两位数),第9、10位为出生月份,第11、12位代表出生日期,第15位代表性别,奇数为男,偶数为女。

* --18位身份证号码:第7、8、9、10位为出生年份(四位数),第11、第12位为出生月份,第13、14位代表出生日期,第17位代表性别,奇数为男,偶数为女。

* 最后一位为校验位

*

*

*@author313921*/

public classIdCardUtil {private static Logger logger = LoggerFactory.getLogger(IdCardUtil.class);/***

* 省、直辖市代码表:

* 11 : 北京 12 : 天津 13 : 河北 14 : 山西 15 : 内蒙古

* 21 : 辽宁 22 : 吉林 23 : 黑龙江 31 : 上海 32 : 江苏

* 33 : 浙江 34 : 安徽 35 : 福建 36 : 江西 37 : 山东

* 41 : 河南 42 : 湖北 43 : 湖南 44 : 广东 45 : 广西 46 : 海南

* 50 : 重庆 51 : 四川 52 : 贵州 53 : 云南 54 : 西藏

* 61 : 陕西 62 : 甘肃 63 : 青海 64 : 宁夏 65 : 新疆

* 71 : 台湾

* 81 : 香港 82 : 澳门

* 91 : 国外

*

*/

private static String[] cityCode = { "11", "12", "13", "14", "15", "21","22", "23", "31", "32", "33", "34", "35", "36", "37", "41", "42","43", "44", "45", "46", "50", "51", "52", "53", "54", "61", "62","63", "64", "65", "71", "81", "82", "91"};/*** 每位加权因子*/

private static int power[] = { 7, 9, 10, 5, 8, 4, 2, 1, 6, 3, 7, 9, 10, 5,8, 4, 2};/*** 验证所有的身份证的合法性

*

*@paramidcard

* 身份证

*@return合法返回true,否则返回false*/

public static booleanisValidatedAllIdcard(String idcard) {if (idcard == null || "".equals(idcard)) {return false;

}int s=15;if (idcard.length() ==s) {returnvalidate15IDCard(idcard);

}int s1=18;if(idcard.length()==s1) {returnvalidate18Idcard(idcard);

}return false;

}/***

* 判断18位身份证的合法性

*

* 根据〖中华人民共和国国家标准GB11643-1999〗中有关公民身份号码的规定,公民身份号码是特征组合码,由十七位数字本体码和一位数字校验码组成。

* 排列顺序从左至右依次为:六位数字地址码,八位数字出生日期码,三位数字顺序码和一位数字校验码。

*

* 顺序码: 表示在同一地址码所标识的区域范围内,对同年、同月、同 日出生的人编定的顺序号,顺序码的奇数分配给男性,偶数分配 给女性。

*

*

* 1.前1、2位数字表示:所在省份的代码; 2.第3、4位数字表示:所在城市的代码; 3.第5、6位数字表示:所在区县的代码;

* 4.第7~14位数字表示:出生年、月、日; 5.第15、16位数字表示:所在地的派出所的代码;

* 6.第17位数字表示性别:奇数表示男性,偶数表示女性;

* 7.第18位数字是校检码:也有的说是个人信息码,一般是随计算机的随机产生,用来检验身份证的正确性。校检码可以是0~9的数字,有时也用x表示。

*

*

* 第十八位数字(校验码)的计算方法为: 1.将前面的身份证号码17位数分别乘以不同的系数。从第一位到第十七位的系数分别为:7 9 10 5 8 4

* 2 1 6 3 7 9 10 5 8 4 2

*

*

* 2.将这17位数字和系数相乘的结果相加。

*

*

* 3.用加出来和除以11,看余数是多少

*

* 4.余数只可能有0 1 2 3 4 5 6 7 8 9 10这11个数字。其分别对应的最后一位身份证的号码为1 0 X 9 8 7 6 5 4 3

* 2。

*

* 5.通过上面得知如果余数是2,就会在身份证的第18位数字上出现罗马数字的Ⅹ。如果余数是10,身份证的最后一位号码就是2。

*

*

*@paramidcard

*@return

*/

public static booleanvalidate18Idcard(String idcard) {if (idcard == null) {return false;

}//非18位为假

int s=18;if (idcard.length() !=s) {

logger.error("身份证位数不正确!");return false;

}//获取前17位

String idcard17 = idcard.substring(0, 17);//前17位全部为数字

if (!isDigital(idcard17)) {return false;

}

String provinceid= idcard.substring(0, 2);//校验省份

if (!checkProvinceid(provinceid)) {return false;

}//校验出生日期

String birthday = idcard.substring(6, 14);

SimpleDateFormat sdf= new SimpleDateFormat("yyyyMMdd");try{

Date birthDate=sdf.parse(birthday);

String tmpDate=sdf.format(birthDate);//出生年月日不正确

if (!tmpDate.equals(birthday)) {return false;

}

}catch(ParseException e1) {return false;

}//获取第18位

String idcard18Code = idcard.substring(17, 18);char c[] =idcard17.toCharArray();int bit[] =converCharToInt(c);int sum17 = 0;

sum17=getPowerSum(bit);//将和值与11取模得到余数进行校验码判断

String checkCode =getCheckCodeBySum(sum17);if (null ==checkCode) {return false;

}//将身份证的第18位与算出来的校码进行匹配,不相等就为假

if (!idcard18Code.equalsIgnoreCase(checkCode)) {return false;

}//System.out.println("正确");

return true;

}/*** 校验15位身份证

*

*

* 只校验省份和出生年月日

*

*

*@paramidcard

*@return

*/

public static booleanvalidate15IDCard(String idcard) {if (idcard == null) {return false;

}//非15位为假

int s=15;if (idcard.length() !=s) {return false;

}//15全部为数字

if (!isDigital(idcard)) {return false;

}

String provinceid= idcard.substring(0, 2);//校验省份

if (!checkProvinceid(provinceid)) {return false;

}

String birthday= idcard.substring(6, 12);

SimpleDateFormat sdf= new SimpleDateFormat("yyMMdd");try{

Date birthDate=sdf.parse(birthday);

String tmpDate=sdf.format(birthDate);//身份证日期错误

if (!tmpDate.equals(birthday)) {return false;

}

}catch(ParseException e1) {return false;

}return true;

}/*** 将15位的身份证转成18位身份证

*

*@paramidcard

*@return

*/

public staticString convertIdcarBy15bit(String idcard) {if (idcard == null) {return null;

}//非15位身份证

int s=15;if (idcard.length() !=s) {return null;

}//15全部为数字

if (!isDigital(idcard)) {return null;

}

String provinceid= idcard.substring(0, 2);//校验省份

if (!checkProvinceid(provinceid)) {return null;

}

String birthday= idcard.substring(6, 12);

SimpleDateFormat sdf= new SimpleDateFormat("yyMMdd");

Date birthdate= null;try{

birthdate=sdf.parse(birthday);

String tmpDate=sdf.format(birthdate);//身份证日期错误

if (!tmpDate.equals(birthday)) {return null;

}

}catch(ParseException e1) {return null;

}

Calendar cday=Calendar.getInstance();

cday.setTime(birthdate);

String year=String.valueOf(cday.get(Calendar.YEAR));

String idcard17= idcard.substring(0, 6) + year + idcard.substring(8);char c[] =idcard17.toCharArray();

String checkCode= "";//将字符数组转为整型数组

int bit[] =converCharToInt(c);int sum17 = 0;

sum17=getPowerSum(bit);//获取和值与11取模得到余数进行校验码

checkCode =getCheckCodeBySum(sum17);//获取不到校验位

if (null ==checkCode) {return null;

}//将前17位与第18位校验码拼接

idcard17 +=checkCode;returnidcard17;

}/*** 校验省份

*

*@paramprovinceid

*@return合法返回TRUE,否则返回FALSE*/

private static booleancheckProvinceid(String provinceid) {for(String id : cityCode) {if(id.equals(provinceid)) {return true;

}

}return false;

}/*** 数字验证

*

*@paramstr

*@return

*/

private static booleanisDigital(String str) {return str.matches("^[0-9]*$");

}/*** 将身份证的每位和对应位的加权因子相乘之后,再得到和值

*

*@parambit

*@return

*/

private static int getPowerSum(int[] bit) {int sum = 0;if (power.length !=bit.length) {returnsum;

}for (int i = 0; i < bit.length; i++) {for (int j = 0; j < power.length; j++) {if (i ==j) {

sum= sum + bit[i] *power[j];

}

}

}returnsum;

}/*** 将和值与11取模得到余数进行校验码判断

*

*@paramcheckCode

*@paramsum17

*@return校验位*/

private static String getCheckCodeBySum(intsum17) {

String checkCode= null;switch (sum17 % 11) {case 10:

checkCode= "2";break;case 9:

checkCode= "3";break;case 8:

checkCode= "4";break;case 7:

checkCode= "5";break;case 6:

checkCode= "6";break;case 5:

checkCode= "7";break;case 4:

checkCode= "8";break;case 3:

checkCode= "9";break;case 2:

checkCode= "x";break;case 1:

checkCode= "0";break;case 0:

checkCode= "1";break;default:

}returncheckCode;

}/*** 将字符数组转为整型数组

*

*@paramc

*@return*@throwsNumberFormatException*/

private static int[] converCharToInt(char[] c) throwsNumberFormatException {int[] a = new int[c.length];int k = 0;for (chartemp : c) {

a[k++] =Integer.parseInt(String.valueOf(temp));

}returna;

}

}

View Code

packagecom.sjck.hive.udf;mons.lang.StringUtils;importorg.apache.hadoop.hive.ql.exec.UDF;importcom.sjck.hive.udf.util.IdCardUtil;/*** 身份证信息验证

*@authorAdministrator

**/

public class VerifiyCardNo extendsUDF {public staticString evaluate(String idcard,String returnType) {if(StringUtils.isNotBlank(idcard)){boolean validated=IdCardUtil.isValidatedAllIdcard(idcard);if(validated){

String gender="未知";

String birthday="未知";

String birthday_region="未知";

idcard=idcard.length()==15?IdCardUtil.convertIdcarBy15bit(idcard):idcard;

String checkCode= String.valueOf(idcard.charAt(16));int parseInt =Integer.parseInt(checkCode);

gender=parseInt%2==0?"女":"男";

returnType=returnType.toUpperCase();if(StringUtils.isNotBlank(returnType)){if("BIRTHDAY".equals(returnType)){

birthday= idcard.substring(6, 14);returnbirthday;

}else if("GENDER".equals(returnType)){returngender;

}else if("BIRTHDAY_REGION".equals(returnType)){

birthday_region=idcard.substring(0, 6);returnbirthday_region;

}

}

}

}return "未知";

}

}

View Code

二、添加jar的三种方式

1)使用add jar jarpath/hive-udf.jar;方法加入

该方法的缺点是每次启动Hive的时候都要从新加入,退出hive就会失效。

2)通过设置hive的配置文件hive-site.xml 加入

在配置文件中增加配置

hive.aux.jars.path

file:///jarpath/hive-udf1.jar,file:///jarpath/hive-udf2.jar

保存即可

该方法比第一种方法方便很多。不需要每次启动Hive执行命令加入,只是配置稍微复杂一些

3)在${HIVE_HOME}下创建auxlib目录,将UDF文件放到该目录中,这样hive在启动时会将其中的jar文件加载到classpath中

这种方法,方便快捷,不需要重启HVIE服务

三、 函数声明:

//创建临时函数

create temporary function toSingleByteas'com.sjck.hive.udf.ToSingleByte';

//创建永久函数

create function toSingleByteas'com.sjck.hive.udf.ToSingleByte';

create function verifiyCardNo as 'com.sjck.hive.udf.VerifiyCardNo';

删除永久函数

drop function toSingleByte;

drop function verifiyCardNo;

个人是将hive的udf 放在 hdfs上

hadoop fs -mkdir/user/hive/udf

hadoop fs -put hive-udf.jar /user/hive/udf/

create function toSingleByteAS 'com.sjck.hive.udf.ToSingleByte' using jar 'hdfs://master01:8020/user/hive/udf/hive-udf.jar';

create function verifiyCardNoAS 'com.sjck.hive.udf.VerifiyCardNo'using jar 'hdfs://master01:8020/user/hive/udf/hive-udf.jar';

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。