【IT168 评论】通常,企业在知晓编写代码和构建内部解决方案所需的成本和复杂性之后,首先会意识到对ETL工具的需求。提取,转换和加载(ETL)工具使企业能够在不同的数据系统中访问有意义且可用的数据。
企业也可尝试组装开源ETL工具。有时,这种方法更节省成本,同时可自定义需要的功能,提供更多灵活性和支持。但是,如果企业内部不具备相关技术人才,选择商用解决方案可以免去很多麻烦,也可以获得更好的服务。
本文列举了现代ETL工具与传统商用解决方案,现代ETL工具通常是基于云的解决方案,并提供端到端的支持,支持不断增长的基于网络的数据流列表(这不是一份完整清单,但它确实涵盖了主要产品)。
现代ETL工具
随着对实时数据访问需求的增加,企业体系结构发生根本变化。今天的模型基于流处理和分布式消息队列,如Kafka。现代ETL工具套件以实时流数据处理和云计算为基础,可与云数据仓库良好集成,并支持日益增多的数据源和数据流。
·Alooma
Alooma是为云构建的企业数据管理平台。Alooma为数据团队提供了现代的,可扩展的,基于云的ETL解决方案,可实时将来自所有数据源的数据汇集到数据仓库。
错误处理:处理,监控/报告,重新定义
·Confluent
Confluent是一个基于Apache Kafka的全面数据流平台,能够在数据流中发布和订阅,也可存储和处理数据,Confluent提供了其平台的开源版本。
错误处理:仅监控
·Fivetran
Fivetal是一款SaaS数据集成工具,可从不同云服务,数据库和商业智能(BI)工具中提取数据并将其加载到数据仓库。
错误处理:仅监控
·FlyData
FlyData是一款SaaS数据迁移工具,可用于管理MySQL,PostgreSQL,MariaDB,Percona中的数据加载过程,并以CSV / TSV / JSON格式记录到Amazon Redshift数据仓库。
错误处理:有错误处理,需要缓冲
·Matillion
Matillion提供专门为Amazon Redshift,Google BigQuery和Snowflake构建的云数据集成ETL工具。
错误处理:通过代码支持,不内置
·SnapLogic
SnapLogic为云数据源,SaaS应用程序和本地商业软件应用程序提供数据集成平台即服务。
错误处理:支持,但不内置
·Stitch Data
Stitch是一款云优先的开发者专用工具,用于快速移动数据。
错误处理:手动,记录在rejection表中
·StreamSets
StreamSets是云本地产品集合,用于控制数据漂移,数据,数据源,数据基础架构和数据处理方面的变化。
错误处理:有错误记录处理
·Striim
Striim(发音为“stream”)是一个实时流媒体分析和数据集成平台。
错误处理:仅监控
传统商用解决方案
商用ETL工具构成ETL工具市场的大部分 - 因为其在各个领域积累的用户群,因此商用ETL工具的预装客户群是可观的。其中,一些工具包括套件是为了解决特定问题而出现的,它们存储在传统的单一数据库和系统中。不过,供应商已经准备好提供工具来迁移这些数据。
·IBM InfoSphere Information Server
IBM InfoSphere Information Server是一个ETL工具,是IBM信息平台解决方案套件和IBM InfoSphere的一部分,使用图形界面构建数据集成解决方案,并提供各种版本(服务器版,企业版和MVS版)。
·Informatica PowerCenter
Informatica PowerCenter是ETL产品套件的通用名称,包括PowerCenter客户端工具、服务器和存储库。数据存储在由客户端工具和服务器访问的存储库中,操作在服务器上执行,服务器连接源和目标以获取数据,应用所有转换并将数据加载到目标系统中。
·iWay Software
Information Builders的iWay Integration Suite提供应用程序和数据集成功能,包括iWay DataMigrator,iWay Service Manager和iWay Universal Adapter Framework。
·Microsoft SQL Server集成服务
Microsoft SQL Server Integration Services(SSIS)是构建高性能数据集成解决方案的平台,包括用于数据仓库的ETL包。
·OpenText
OpenText Integration Center是一个集成平台,使企业能够从一个或多个存储库中提取,增强,转换,集成并迁移数据和内容到任何新平台。
·Oracle GoldenGate
Oracle GoldenGate是一个全面的软件包,用于在异构IT环境中进行实时数据集成和复制。
·Pervasive Software
Pervasive的Data Integrator平台是一种企业数据集成软件解决方案,使公司能够在任何类型的数据源和应用程序之间建立连接,Data Integrator支持实时集成方案。
·Pitney Bowes Software
Pitney Bowes提供大量工具和解决方案,Sagent Data Flow是一款灵活的集成引擎,可整合来自不同来源的数据并提供全面的数据转换工具以提高业务价值。
·SAP BusinessObjects Data Services
SAP Business Objects Data Services(BODS)的前身是Business Objects Data Integrator,它是一种用于数据集成、数据分析和数据处理的ETL工具,允许企业将可信数据集成并转入数据仓库系统以进行分析。
·SAS Data Management
SAS Data Management建立在SAS平台之上,是SAS进入ETL工具市场的平台,由20多种SAS工具和服务组成。
·SYBASE
Sybase ETL包括Sybase ETL Development和Sybase ETL Server。
Sybase ETL Development是一款用于创建和调试环境的GUI工具,旨在加速ETL转换流程开发。Sybase ETL Development包含ETL Development Server,可以控制实际的处理,如连接数据库和执行程序。
Sybase ETL Server是一种可伸缩和分布式的网格引擎,使用转换流连接到数据源并将数据提取加载到目标系统。
·Syncsort
SyncSort云解决方案可访问整合各种来源的数据,并有助于将数据移至云存储库。
总结
传统工具最大的限制是被设计成批处理模式:收集数据,上传数据,收集更多数据,上传更多数据等。批量加载数据在某些情况下有效,但是,仅有批处理模式就存在问题。
批处理ETL工具很难整合跨平台数据源,尤其是涉及变更数据捕获(CDC)的情况。当批量数据上传出现问题,研发人员需要跟踪问题、排除故障并快速重新提交作业。
随着越来越多的数据流和其他类型的数据源出现,需要现代化的数据集成方法。无论希望整合来自数据库,流媒体服务,文件还是其他来源数据,选择正确的工具都至关重要。云,可以为企业提供所需优势。