ETL是用于将数据从来源端传输到目的端的过程,当然这其中还有着抽取、转化、加载等过程,通俗的讲就是对于数据清洗加工成为有价值的数据,所以etl对于企业带来的价值还是很大的。
1. Pentaho Kettle
PenthoKetle是一款国外开源的ETL工具,纯Java语言编写,可以在Windows Linux.UNIX系统上运行,并且是绿色无需安装的。Ketile的中文名称叫水壶,该工具的设计理念是希望把来自不同数据库中的数据放到-个“壶”里,然后以一种指定的格式流出。 Ketle拥有两种脚本文件,分别是Transtormtio(转换)和Job(作业),其中Tronsformation是用于完成数据的基础转换,而Job是完成整个工作流的控制。
2.Hawk
Hawk是一种数据采集和清洗工具,依据GPL(GNU通用公共许可证)协议开源,基于C#语言编写的,并且其前端界面使用WPF开发,支持插件扩展。awk的含义为“鹰”,能够高效、准确地捕杀猎物。也就是说,Hawk能够灵活、有效地采集来自网页、数据库和文件等来源的数据,并通过可视化的拖曳操作快速地进行生成、过滤及转换等操作。Hawk 主要应用于爬虫和数据清洗等领城。
3.Informatica PowerCenter
Intormatica PowerCenter 是Informatica公司开发的世界级的企业数据集成平台,也是业界领先的ETL工具。Informatica PowerCenter用于访问和集成几乎任何业务系统、任何格式的数据,它可按任意速度在企业内交付数据,具有高性能、高可扩展性、高可用性的特点。Informatica PowerCenter提供了多个可选的组件,以扩展InformaticaPowerCenter的核心数据集成功能,这些组件包括数据清洗和匹配、数据屏蔽、数据验证、元数据交换等。
4.DataStage
BM的InfoSphere DataStage简称DataStage,它是一个领先的ETL平台,可跨多个企业系统集成数据。DataStage 利用高性能并行框架,可根据项目需求在云中或者本地部署ETL环境,它支持HBase、Hive、Amazon以及MongoDB等数据库的连接,可以灵活、有效地更新和管理数据继承的基础架构。
以上就是对于etl工具的介绍,这些工具要想熟练的掌握是需要大量的实战项目练习的!