网站首页 > 开源技术正文

如何在HUE上通过oozie调用Spark工作流

wxchong 2024-10-09 21:21:59 开源技术 32 ℃ 0 评论

特别说明：该专栏文章均来源自微信公众号《大数据实战演练》，欢迎关注！

HUE版本：3.12.0
Spark版本：1.6.3
Ambari版本：2.6.1.0
HDP版本：2.6.4
前言
通过浏览器访问ip:8888登陆HUE界面，首次登陆会提示你创建用户，这里使用账号/密码：hue/hue登陆。

一、背景

访问ip:8888/about/#step2，点击下载Oozie Editor/Dashboard，可以下载应用程序示例。如下图所示：

下载完成之后，访问workflow编辑器，会看到spark的程序示例。在这对该示例如何执行进行讲解。如下两图所示：

二、业务场景

通过启动Spark Java程序复制文件到HDFS文件系统中。

三、上传jar包

点击spark示例程序，点击“工作区”，如下图所示：

将本地/usr/hdp/2.6.4.0-91/spark/lib目录下的jar包上传到上述工作区的lib文件夹内，执行命令：

sudo -u hdfs hadoop fs -put /usr/hdp/2.6.4.0-91/spark/lib/* /user/hue/oozie/workspaces/workflows/spark-scala/lib/

执行结果如图所示：

四、检查Workflow配置

点击“编辑”，出现如下图所示，其中jar/py名称是oozie-examples.jar，main class(主类)是org.apache.oozie.example.SparkFileCopy，参数为：${input}，${output}。在这里，我们保持默认配置。如下图所示：

点击“设置”，可以更改Workflow设置，其中变量input的值就是我们要复制的文件路径。在这里，我们保持默认配置，如下图所示：

五、执行Workflow

点击“执行”按钮，选择output输出路径，这里我选择输出到该示例的工作区: /user/hue/oozie/workspaces/workflows/spark-scala/output，点击“提交”。

备注：输出路径会自动生成，不能选择已有文件。

六、查看结果

打开/user/hue/oozie/workspaces/workflows/spark-scala/output，会生成三个文件，如下图所示：

七、总结

在HUE上通过oozie调用Spark工作流：

本篇文章是使用的HUE官方自带的Spark示例，我们需要提前下载。
上传Spark相关jar包到该Spark Workflow的工作区
检查Workflow配置
选择输入输出参数，执行Workflow

推荐链接

HUE配置与各服务集成使用

-END--

码字不易，如果您觉得文章写得不错，请关注作者~ 您的关注是我写作的最大动力

友情提示：原文排版精美，可点击分享链接查看。

上一篇：如何在HUE上通过oozie调用Hive SQL工作流
下一篇： 5.16.2-如何禁用Hue中Oozie的部分Action

网站首页 > 开源技术正文

如何在HUE上通过oozie调用Spark工作流

特别说明：该专栏文章均来源自微信公众号《大数据实战演练》，欢迎关注！

一、背景

二、业务场景

三、上传jar包

四、检查Workflow配置

五、执行Workflow

六、查看结果

七、总结

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 开源技术 正文

如何在HUE上通过oozie调用Spark工作流

特别说明：该专栏文章均来源自微信公众号《大数据实战演练》，欢迎关注！

一、背景

二、业务场景

三、上传jar包

四、检查Workflow配置

五、执行Workflow

六、查看结果

七、总结

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 开源技术正文

取消回复欢迎你发表评论: