傲飞商智
扫描关注傲飞商智微信公众账号

扫一扫微信二维码

项目介绍

[ 汕头移动数据枢纽建设项目 ]

项目案例电信行业
案例标签
Hadoop
数据接口
Hive
数据枢纽
案例介绍
汕头移动的数据枢纽平台在傲飞数据整合平台的基础上完成。
该数据枢纽平台的主要功能是将各个业务系统的数据库表、FTP文件、Web服务提供的数据,接入到Hadoop平台。平台的主要完成的功能如下:
1、实现关系型数据库表、FTP文件经过数据抽取——数据转换后,装载进HADOOP平台数据管理接口机,并操作HADOOP平台管理接口机完成数据文件切片的机制。
2、线上配置作业周期(日、月)、作业名称、数据抽取依据(增量、全量)等。
3、线上配置数据源类型、数据源IP地址、数据源用户密码、作业发起时间点,并可以检测服务主机与数据源IP的网络环境与数据源信息的准确性。
4、线上配置目标数据源库表或文件名称,支持从指定数据源中读取所有库表和文件名称提供选择。
5、读取数据源库表或文件数据结构,可选择需入库字段信息、可配置数据源数据的筛选条件。
6、线上配置进入HADOOP平台的文件名称格式。
7、数据源支持关系型数据库包括Oracle、SQL Server、MySQL。
8、对用户配置具有一定的容错能力,能检测用户配置内容的正确性。
9、对在线有效作业进行实时监控。可查看每个数据装载作业的运行情况和每个步骤的具体日志。
10、     实现对数据装载作业的管理机制,可线上配置作业过期、删除等。
11、     支持一定的数据聚合、统计功能
12、     对重复的数据要能去重、可以制定数据规则,过滤无效数据。
13、     支持不能直接连接的数据源(Oracle 数据库),通过HTTP 代理方式获取数据。
该平台的架构图、功能图、部署图分别说明如下:



功能图
 

架构图
系统架构图说明:
1.        数据接入:从外网省公司的数据集市中下载需要的数据,通过前置机抽取数据,数据枢纽平台从前置机获取数据文件。
2.        内部的数据交互: 内网的Hadoop平台、分布式Mysql数据库,其它关系数据库之间数据的相互操作,都通过统一的数据枢纽平台完成
3.        对外数据服务,都通过数据枢纽平台对外提供服务,这里面包括用户创建,服务创建,服务鉴权、服务配置等。
4.        Hadoop平台和分布式Mysql数据库可以使用两种方式Webservice和FTP
 
 




部署说明:
1.        数据枢纽分两部分部署:数据集市接口服务器(80),及数据枢纽应用服务器(主备两台)。
2.        数据枢纽Web界面的访问时通过部署在本地的数据枢纽应用服务器,存放数据的数据库使用本地的Mysql分布式数据库
3.        本地部署的数据枢纽服务,对外开放一个专用的Rest API接口,数据集市接口服务器上部署的数据枢纽提交作业任务信息使用。这样两个个地方部署的数据枢纽服务,各种作业信息都会保存到本地部署的数据枢纽服务的数据库中,便于查找和监控
4.        数据枢纽所有对外提供的数据接口服务统一由部署在本地的数据枢纽服务提供。