温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
Fayson的github:https://github.com/fayson/cdhproject
提示:代码块部分可以左右滑动查看噢
1.文档编写目的
前面Fayson介绍了多种方式在CDH集群外的节点向集群提交Spark作业,文章中均采用Spark1来做为示例,本篇文章主要介绍如何是用Oozie API向Kerberos环境的CDH集群提交Spark2作业。
学习本篇知识前必读内容:
《
集群安CDH5.12.1装Kudu、Spark2、Kafka
》
《
如何使用Hue创建Spark1和Spark2的工作流
》
内容概述:
- 环境准备
- 示例代码编写及测试
- 总结
测试环境:
- CM和CDH版本为5.13.1
前置条件:
- 集群已启用Kerberos
2.环境准备及描述
1.我们将作业运行的jar包上传到HDFS目录
[root@ip-172-31-16-68 ~]# kinit fayson Password for fayson@FAYSON.COM: [root@ip-172-31-16-68 ~]# klist Ticket cache: FILE:/tmp/krb5cc_0 Default principal: fayson@FAYSON.COM Valid starting Expires Service principal 02/22/2018 21:12:41 02/23/2018 21:12:41 krbtgt/FAYSON.COM@FAYSON.COM renew until 03/01/2018 21:12:41 [root@ip-172-31-16-68 ~]#
(可左右滑动)
hadoop fs -mkdir -p /fayson/jars hadoop fs -put /opt/cloudera/parcels/SPARK2/lib/spark2/examples/jars/spark-examples_2.11-2.1.0.cloudera2.jar /fayson/jars/ hadoop fs -ls /fayson/jars
(可左右滑动)
这里Fayson使用的Spark2自带的示例来测试。
2.定义一个Spark2 Action的workflow.xml文件,内容如下:
<workflow-app name="My Workflow" xmlns="uri:oozie:workflow:0.5"> <start to="spark-c457"/> <kill name="Kill"> <message>Action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message> </kill> <action name="spark-c457"> <spark xmlns="uri:oozie:spark-action:0.2"> <job-tracker>${jobTracker}</job-tracker> <name-node>${nameNode}</name-node> <configuration> <property> <name>oozie.action.sharelib.for.spark</name> <value>spark2</value> </property> </configuration> <master>${master}</master> <mode>${mode}</mode> <name>${name}</name> <class>${class}</class> <!--<arg>${arg}</arg>--> <jar>${jar}</jar> <file>${file}</file> </spark> <ok to="End"/> <error to="Kill"/> </action> <end name="End"/> </workflow-app>
(可左右滑动)
注意:workflow.xml文件中使用的参数配置为动态参数,会在后面的代码中指定该参数的值。
3.将定义好的workflow.xml文件上传至HDFS的/user/fayson/oozie/spark2oozie目录下
hadoop fs -mkdir -p /user/fayson/oozie/spark2oozie hadoop fs -put workflow.xml /user/fayson/oozie/spark2oozie hadoop fs -ls /user/fayson/oozie/spark2oozie
(可左右滑动)
4.准备JAAS文件oozie-login.conf,内容如下
com.sun.security.jgss.initiate { com.sun.security.auth.module.Krb5LoginModule required storeKey=true useKeyTab=true debug=true keyTab="/Volumes/Transcend/keytab/fayson.keytab" principal="fayson@FAYSON.COM"; };
(可左右滑动)
3.创建Maven示例工程
1. 使用Maven创建Java工程
2.工程pom.xml文件内容如下
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <parent> <artifactId>cdh-project</artifactId> <groupId>com.cloudera</groupId> <version>1.0-SNAPSHOT</version> </parent> <modelVersion>4.0.0</modelVersion> <artifactId>oozie-demo</artifactId> <packaging>jar</packaging> <name>oozie-demo</name> <url>http://maven.apache.org</url> <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> </properties> <dependencies> <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.4</version> </dependency> <dependency> <groupId>net.sourceforge.spnego</groupId> <artifactId>spnego</artifactId> <version>7.0</version> </dependency> <dependency> <groupId>org.apache.oozie</groupId> <artifactId>oozie-client</artifactId> <version>4.1.0</version> </dependency> </dependencies> </project>
(可左右滑动)
4.编写Oozie示例代码
1.编写Spark2WorkflowDemo.java,示例代码如下
package com.cloudera.kerberos; import org.apache.oozie.client.AuthOozieClient; import org.apache.oozie.client.OozieClientException; import org.apache.oozie.client.WorkflowAction; import org.apache.oozie.client.WorkflowJob; import java.util.List; import java.util.Properties; /** * package: com.cloudera.kerberos * describe: 使用Oozie API接口向Kerberos集群提交Spark2作业 * creat_user: Fayson * email: htechinfo@163.com * creat_date: 2018/3/10 * creat_time: 下午19:15 * 公众号:Hadoop实操 */ public class Spark2WorkflowDemo { private static String oozieURL = "http://ip-172-31-16-68.ap-southeast-1.compute.internal:11000/oozie"; public static void main(String[] args) { System.setProperty("java.security.krb5.conf", "/Volumes/Transcend/keytab/krb5.conf"); System.setProperty("javax.security.auth.useSubjectCredsOnly", "false"); System.setProperty("ssun.security.jgss.debug", "true"); //Kerberos Debug模式 System.setProperty("java.security.auth.login.config", "/Volumes/Transcend/keytab/oozie-login.conf"); AuthOozieClient oozieClient = new AuthOozieClient(oozieURL, AuthOozieClient.AuthType.KERBEROS.name()); oozieClient.setDebugMode(1); try { // System.out.println(oozieClient.getServerBuildVersion()); Properties properties = oozieClient.createConfiguration(); properties.put("oozie.wf.application.path", "${nameNode}/user/fayson/oozie/spark2oozie"); properties.put("name", "MyfirstSpark"); properties.put("nameNode", "hdfs://ip-172-31-16-68.ap-southeast-1.compute.internal:8020"); properties.put("oozie.use.system.libpath", "True"); properties.put("master", "yarn"); properties.put("mode", "cluster"); properties.put("class", "org.apache.spark.examples.SparkPi"); properties.put("arg", "50"); properties.put("sparkOpts", "--num-executors 4 --driver-memory 1g --driver-cores 1 --executor-memory 1g --executor-cores 1"); properties.put("jar", "${nameNode}/fayson/jars/spark-examples_2.11-2.1.0.cloudera2.jar"); properties.put("oozie.libpath", "${nameNode}/fayson/jars"); properties.put("jobTracker", "ip-172-31-16-68.ap-southeast-1.compute.internal:8032"); properties.put("file", "${nameNode}/fayson/jars"); //运行workflow String jobid = oozieClient.run(properties); System.out.println(jobid); //等待10s new Thread(){ public void run() { try { Thread.sleep(10000l); } catch (InterruptedException e) { e.printStackTrace(); } } }.start(); //根据workflow id获取作业运行情况 WorkflowJob workflowJob = oozieClient.getJobInfo(jobid); //获取作业日志 System.out.println(oozieClient.getJobLog(jobid)); //获取workflow中所有ACTION List<WorkflowAction> list = workflowJob.getActions(); for (WorkflowAction action : list) { //输出每个Action的 Appid 即Yarn的Application ID System.out.println(action.getExternalId()); } //杀掉作业 // oozieClient.kill(jobid); } catch (OozieClientException e) { e.printStackTrace(); } } }
(可左右滑动)
5.示例运行及验证
1.运行Spark2WorkflowDemo代码,向CDH集群提交Spark作业
2.登录CM进入Yarn服务的“应用程序”菜单查看
3.打开Yarn的8088 Web界面查看
可以看到作业已运行成功,到此已完成了通过Oozie API接口创建workflow并运行的示例演示。
6.总结
- 通过Oozie API提交作业,需要先定义好workflow.xml文件
- 参数传递通过在代码里面调用oozieClient.createConfiguration()创建一个Properties对象将K,V值存储并传入oozieClient.run(properties)中。
- 在指定HDFS上运行的jar或workflow的路径时需要带上HDFS的路径,否则默认会找到本地的目录
- 向Kerberos集群提交作业需要在程序中加载JAAS配置
- Oozie-client提供了Kerberos认证的AuthOozieClient API接口
- 由于Oozie默认不支持Spark2作业的提交,因此需要先在Oozie的共享库中安装Spark2的支持
- 在定义Spark2的workflow.xml时,需要增加配oozie.action.sharelib.for.spark的配置为spark2,否则作业无法正常执行。
GitHub地址:
https://github.com/fayson/cdhproject/blob/master/ooziedemo/src/main/java/com/cloudera/kerberos/Spark2WorkflowDemo.java
https://github.com/fayson/cdhproject/blob/master/ooziedemo/conf/workflow-spark2-template.xml
使用Oozie API向集群提交作业相关文章:
《
如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业
》
《
如何使用Oozie API接口向非Kerberos环境的CDH集群提交Java作业
》
《
如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业
》
《
如何使用Oozie API接口向Kerberos集群提交Java程序
》
Livy相关文章:
《
如何编译Livy并在非Kerberos环境的CDH集群中安装
》
《
如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业
》
《
如何在Kerberos环境的CDH集群部署Livy
》
《
如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业
》
提示:代码块部分可以左右滑动查看噢
为天地立心,为生民立命,为往圣继绝学,为万世开太平。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。
原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操
本文暂时没有评论,来添加一个吧(●'◡'●)