大数据开发平台文档

大数据开发操作文档文档发布于：2020-12-28

登录开发平台

在浏览器输入网址：https://dev.flydiysz.cn:8887/default-front-datafactory/main/pagedirectory_developer/developer-list 然后输入用户名、密码登录即可

进入开发者中心,点击新建任务

输入任务名称、创建人、备注并确认保存

选择新建任务的任务,点击编辑进入页面

任务首页

根据任务名称新建流程:

1)、选择数据源

点击数据源面板,选择一个组件,拖拽至流程面板,右键编辑(或组件面板的参数管理),进入组件参数管理,输入数据库连接信息,选择需要操作的库表并保存

组件参数管理

2)、选择采集组件

点击采集面板,选择一个组件,拖拽至流程面板,右键编辑(或组件面板的参数管理),进入组件参数管理,输入数据库连接信息,选择需要操作的库表并保存

配置:canal

选择主题、消费组

3)、选择计算面板

点击计算面板,选择一个组件,拖拽至流程面板,输入sql语句,选择集群配置并保存

流程面板

部署完成,点击工具栏启动,开始执行

一、组件使用

1.Mysql组件

1.1 Mysql的链接

在MySQL的编辑界面，输入MySQL的host，port，用户名和密码，点击链接按钮，就可以看到所有的数据库和表以及字段信息。

1.2 Mysql自定义字段

可以选择多个字段和表，也可以新增一个字段，后续可以自动生成对应的Java实体类。

2.Excel组件

支持上传一个Excel文件，并解析Excel文件，保存到数据库和hive中。

3.Flume组件

在Flume组件中配置好脚本文件，可以在服务器上自动生成一个脚本。

4.Kafka组件

在Kafka组件中输入连接的host和port，可以查询出对应的topic。也可以新建一个topic。

5.Datax组件

在Datax组件中可以选择上游和下游数据源，并在对应的数据源中输入参数，就可以生成对应的datax脚本。

6.Sqoop组件

在Sqoop组件中配置好脚本文件，可以在服务器上自动生成一个脚本。

7.ES组件

支持在ES组件中输入host和port，就可以查询出对应的index。也可以自己新建一个index。

8.LogServer组件

LogServer组件可以查看远程服务器的目录。

9.Flink组件

可以在flink组件中查看Mysql选择的库表字段信息，方便对照输入flinksql语句。

二、已实现的场景

1.实时场景

Flink实时消费Kafka中的数据并写入到ES

1.2 各个组件参数配置

Mysql的参数配置：选择源数据的表和字段

Kafka的参数配置：选择要消费的主题

Flink的参数配置：输入对应的flinksql语句

ES的参数配置：选择要sink的index

点击主页的保存按钮，可以自动生成代码，并上传到git上

点击启动按钮，就可以运行flink的job

2.离线场景一

使用Datax同步Mysql数据到Hive中

2.1各个组件的参数配置

Mysql的参数配置：选择要同步的数据源

Datax的参数配置：输入sink到hdfs的url、路径等信息

点击主页的保存按钮，就可以自动生成datax的脚本文件

点击启动按钮，就可以执行datax

3.离线场景二

使用Flume采集日志文件，输入到Hdfs和Hive中

3.1各个组件的参数配置

Text组件的参数配置

Hdfs组件参数

点击主页的保存按钮，即可生成flume的配置文件

配置文件效果如下:

点击启动，就可以实现flume采集日志到hdfs和hive中

4.离线场景三

使用sqoop工具，将mysql中的数据导入到hive中

4.1各个组件的参数配置

Mysql组件的参数，选择源数据

Sqoop组件的参数配置，输入执行脚本，会自动生成脚本文件

注意：该功能后续会做优化，简化录入脚本的步骤

点击启动按钮，就可以实现sqoop将mysql数据导入到hive中

在hive中查询数据，效果如下