大数据平台每日都要将源系统数据,加载到平台里。这项工作,必须自动化。 目前看下来,比较适合的工具就是Oozie.
Oozie的全称是Apache Oozie Workflow Scheduler for Hadoop 。所以它既是一个工作流工具,还是一个计划调度工具。
从文件系统加载数据到hive表,然后转换成parquet格式,这是两个动作的组合,算是一种工作流;
发现特定目录下有文件进入,然后启动任务,这算是一种调度触发。
Oozie对上述两项任务都支持。
运行Oozie,可以使用以下命令 :
oozie job -oozie http://localhost:11000/oozie -config examples/apps/map-reduce/job.properties -run
Hive2 任务如何完成:
只要看了oozie自带的example中的workflow.xml,就知道了。