谢钰宁
广州赛宝认证中心服务有限公司 广东省广州市 510610
数据管理(Data Management)是一个广泛而模糊的概念,国际数据管理协会(DAMA International)将其定义为“为实现数据和信息资产价值的获取、控制、保护、交付以及提升,对政策、实践和项目所做的计划、执行和监督”。该定义包含以下三层含义:(1)数据管理包含一系列业务职能,包括政策、计划、实施和项目的计划和执行;(2)数据管理包含一套严格的管理规范和过程,用于确保业务职能得到有效履行;(3)数据管理包含多个由业务领导和技术专家组成的管理团队,负责落实管理规范和过程。数据管理的其他称谓包括:信息管理(Information Management,IM)、企业信息管理(Enterprise Information Management,EIM)、企业数据管理(Enterprise Data Management,EDM)、数据资源管理(Data Resource Management,DRM)、信息资源管理(Information Resource Management,IRM)、信息资产管理(Information Asset Management,IAM)等。
当企业提及“数据管理”时,他们真正意味着什么呢?笔者认为主要包括云数据管理、ETL和数据集成、主数据管理、参考数据管理、数据分析和可视化五方面:
(1)云数据管理:集成来自组织的云应用程序生态系统的数据的过程。云数据管理的主要区别在于,所有数据存储、接收和处理都发生在基于云的存储介质中;
(2)ETL和数据集成:将数据从数据源加载到数据仓库中,将其转换、汇总和聚合为适合进行深入分析的格式;
(3)主数据管理:描述了一组规程、技术和解决方案,这些规程、技术和解决方案用于为所有利益相关方(如用户、应用程序、数据仓库、流程以及贸易伙伴)创建并维护业务数据的一致性、完整性、相关性和精确性;
(4)参考数据管理:是对定义的数据值域进行控制,包括:对标准化术语、代码值和其他唯一标识符以及每个取值的业务定义的控制;对数据值域列表内部和跨不同列表之间的业务关系控制;对准确、及时和相关参考数据值的一致、共享使用进行控制,以进行数据分类和目录整编;
(5)数据分析和可视化:处理来自大数据源和数据仓库的选定数据,执行高级数据分析,并允许分析师和数据科学家对多维数据进行切片、块、旋转等动作剖析数据,从而能多角度多侧面观察数据并呈现可视化和仪表板。
在网络高速发展的今天,不知不觉我们走入一个数据爆炸时代,高质量的数据管理工具对于实现数据管理最佳实践至关重要。基于以上观点,笔者把数据管理工具分成五个类别:
(1)云数据管理工具:构建在云上,这些工具通过API、Webhooks或直接数据库连接连接到多个数据源并集成多个数据源;
(2)ETL工具和数据集成工具:ETL工具可以帮助组织从多个数据源加载数据、定义复杂的自动数据转换、测试数据管道以及将数据连续加载到目标数据库或数据仓库,数据集成工具可以在数据从单个数据源移动到可分析的数据仓库或在可分析的数据仓库内时,帮助组织将原始数据转换为干净的、聚合的、可分析的数据;
(3)主数据管理工具:是主数据标准文本发布、主数据全生命周期管理的重要平台,主数据标准的维护流程和管理措施通过管理平台进行系统实现和控制,以保证标准的唯一性和宣贯的及时性,主要包括数据建模、数据整合、数据管理、数据服务、基础管理、标准管理等功能模块;
(4)参考数据管理工具:通常作为主数据管理套件的一部分提供,围绕参考数据定义业务流程,并帮助组织填充参考数据并随着时间的推移进行管理;
(5)数据可视化和数据分析工具:帮助组织探索、分析和可视化大数据集,并生成报告和仪表板,以提取见解并指导业务决策。
下面笔者将对每个类别中的具体工具做简单的介绍。
云数据管理工具
随着存储和带宽变得越来越便宜,越来越多的数据仓库和管理的外向解决方案变得可用。拥有大量数据要存储、筛选和分析的公司现在将定期在云中存储和管理其数据。在过去的5到10年中,云数据管理工具的激增使此工作流成为可能。到目前为止,亚马逊和谷歌等巨头主要领导这一领域,但许多规模较小的公司现在也在为有各种不同数据需求的客户提供工具。有关云数据管理工具如下:
(1)Panoply
Panoply提供云原生自动化数据仓库,便于集成和管理组织的所有数据。主要的特点是:有大量本地数据连接器可供选择,便于一键式数据引入;自动数据引入和预处理可释放IT资源;直观的管理仪表板将猜测从数据管理和预算中消除;用于低维护数据仓库的多节点数据库的自动扩展和维护;用于数据分析和查询的浏览器中SQL编辑器;可连接到常见数据可视化和分析套件,如Tableau、Looker、Chartio。价格:每个月325美金。
(2)Amazon Web Services(AWS)
Amazon Web Services提供了一套不断扩大的工具,可以将数据集成到一起并构建有效的云数据管理堆栈中。主要的服务有:Amazon S3用于临时或中间存储,Amazon Glacier用于长期备份和存储,AWS Glue用于构建数据目录、用于对数据进行分类、搜索和查询,Amazon Athena是基于SQL的数据分析,Amazon Redshift用于数据仓库,Amazon Quicksight用于仪表板构建和数据可视化。因为每个服务都单独启动和计费,所以成本取决于利用率。
(3)Microsoft Azure
Microsoft的Azure平台提供了许多不同的方法来设置基于云的数据管理系统,以及可用于Azure存储数据的分析工具。与AWS一样,Azure允许使用多种数据库或数据仓库样式来管理它们。主要服务包括:标准SQL数据库和基于VM的SQL服务器、Blob存储、NoSQL的表存储选项、私有云部署、Azure数据资源管理器(Azure Data Explorer,ADX)(最近添加的服务,允许实时分析非常大的流数据,而无需预处理)、轻松集成Panoply并实现ELT/ETL服务。根据不同的服务有不同的价格。
(4)Google Cloud
与亚马逊一样,谷歌的云平台提供了一套广泛的基于云的数据管理工具,以及可用于将不同组件连接在一起的工作流管理器。谷歌云的主要组件:用于表格数据存储的BigQuery、用于NoSQL数据库样式存储的Cloud BigTable、用于数据接收的Cloud Pub/Sub和Cloud Data Transfer(Google Cloud还可以与各种其他数据源连接)、SQL样式查询的BigQuery analytics、使用机器学习和AI进行更高级分析的Machine Learning Engine、用于基于GUI的分析和仪表板构建的数据工作室、基于代码的数据科学的云数据实验室、连接到常见的BI工具。根据不同的服务有不同的价格。
ETL工具和数据集成工具
(1)Informatica Powercenter
Informatica Powercenter是一个本地ETL工具,具有的关键功能是:使用开箱即用的连接器与所有类型的数据源无缝连接和集成;自动数据验证,即无脚本的自动审核和数据移动或转换验证;高级数据转换,即支持非关系数据,能够分析XML、JSON、PDF、Microsoft Office和IoT数据;元数据驱动的管理,即提供数据流、影响和血统的图形视图。最基本的工具是2000美金一个月。
(2)Stitch Data
Stitch Data是一个基于云的ETL平台,具有的关键功能是:预先集成了云上和云外的几十个数据源,可以将数据移动到Amazon Redshift、S3、BigQuery、Panoply、PostgreSQL等;轻松调度数据复制;使用自动分辨率进行错误处理和警报;API和JSON框架允许用户以编程方式将数据推送到数据仓库;具有自动扩展和企业级SLA的托管云服务。具体价格取决于数据量的多少,大概价格是每个月100美金到1000美金。
(3)Fivetran
Fivetra 是一个完全管理型的数据管道,具有Web界面,可将来自SaaS服务和数据库的数据集成到单个数据仓库中。
主要特点:使用复杂的缓存层提供直接集成,通过直接安全连接发送数据;缓存层有助于将数据从一个点移动到另一个点,而无需在应用程序服务器上存储副本;不施加任何数据限制;可用于集中公司数据并集成所有来源,以确定整个组织的关键绩效指标(KPI)。价格由用户需求决定。
(4)Microsoft SQL Server SSIS
微软提供的SSIS是一个使用MS SQL Server管理ETL的图形界面。主要功能包括:易于使用的界面,允许用户部署集成的数据仓库解决方案,而无需参与编写许多代码或任何代码;图形界面允许为多种数据类型和仓库目标轻松拖放ETL;对于技术技能水平参差不齐的团队来说,这是一个很好的解决方案,因为水平不同的人都能简单的使用它。价格在931美金到15000美金之间。
(5)Azure Data Factory
除了Microsoft的本地ETL解决方案SQL Server SSIS之外,该公司还提供Azure数据工厂(ADF),这是用于其基于云的Azure平台的ETL工具。ADF的主要功能:ADF中的ETL管道构建在图形界面中,允许低代码使用;各种数据连接器,便于数据引入;完全支持将数据加载到Azure数据仓库。价格是1美元运行1000次每个月。
(6)Talend
Talend开源数据集成软件产品提供软件来集成、清理、屏蔽和配置文件数据。Talend产品的主要功能包括:支持使用标准连接器管理大量源系统的GUI,主数据管理功能,对关键企业数据进行单一、一致和准确的查看。价格是1170美金每个月或12000美金每年。
(7)Alooma
Alooma提供企业级数据集成平台,内置了出色的ETL工具。该产品的主要功能:重点快速管道建设、数据质量监控和错误处理;防止在可能容易出错的ETL进程中丢失或损坏数据;灵活地进行干预和编写自己的脚本,以根据需要监视、清理和移动数据;专为企业规模运营而设计。价格是1000到15000美金每个月。
(8)Blendo
Blendo是一个基于云的ETL和数据集成服务,具有以下关键功能:只需点击几下即可连接到多个数据源,将数据移动到Amazon Redshift、Panoply、PostgreSQL、MS SQL Server等;从云服务加载和同步历史数据;定期加载数据或以不同数据源的选定频率加载数据;使用最佳关系架构自动收集、检测和准备数据,不断优化数据方案。价格由用户需求决定。
主数据管理工具
(1)Dell Boomi Master Data Hub
Dell Boomi Master Data Hub具有以下关键功能:通过低代码、视觉体验定义模型;部署数据模型并标识哪些源系统与其交互;将系统记录载入合并存储库,自动合并类似的记录;启用数据管理,警报团队解决重复项和数据输入问题;使用跨孤岛的实时双向流程流控制数据。价格在10万到30万美金。
(2)Profisee
Profisee的主数据管理具有以下主要功能:使组织内的“数据管理员”能够通过分析反馈来管理主数据;标准化、清理和匹配源数据,无需编码;检测数据更改,将事件分发到订阅系统;通过实时双向集成,为全球企业联合主数据;跨组织实施业务流程,让管理员管理数据管理员性能;支持自定义应用程序的集成。价格是10.3美金每小时。
(3)SAP NetWeaver
SAP NetWeaver MDM是NetWeaver开发平台的组成部分,具有以下关键功能:自动从所有主要SAP应用程序提取主数据,加载来自其他源的主数据,使用存储库结构、验证规则、入站和出站映射等业务内容集成数据,将主数据分发到目标,通过API和Web服务实现编程数据集成。根据用户需求决定价格。
(4)Tibco MDM
Tibco常年都在MDM工具排行榜前列。主要功能包括:多域应用程序的灵活性和可扩展性;独立的分布式主数据层;可自定义无代码可视界面,可构建以适应各种业务角色;支持高评级的数据版本控制;SOAP Web服务支持。根据用户需求决定价格。
(5)Ataccama ONE
Ataccama提供的ONE是一种高度自动化的数据管理工具,可以在本地、云中或混合设置中运行。主要功能包括:基于机器学习的数据处理、清理和分类;自动元数据发现;自动项目配置;域不可知,但预配置了用于典型域(如客户、联系人和产品)的MDM预构建规则;适用于各种数据类型和数据源的连接器;完整的数据审核历史记录,以及应用业务规则和转换的详细日志。根据用户需求决定价格。
(6)Stibo STEP
Stibo是榜单上历史最悠久的公司,成立于18世纪。STEP的主要数据管理工具产品具有以下主要功能:STEP工作台UI;整体多域MDM平台;高度自动化;用于跨国业务的自动化数据和语言翻译;自动审核和批准数字资产;企业级主数据管理。根据用户需求决定价格。
参考数据管理工具
(1)Collibra
Collibra的参考数据解决方案具有以下关键功能:自动执行工作流以创建新代码和代码集;以友好的方式向用户提供代码和代码集;执行准确的数据映射,以消除数据访问的障碍;比较来自组织不同部分的数据。根据用户需求决定价格。
(2)Magnitude
Magnitude的参考数据管理工具具有以下主要功能:支持从代码列表到多路径、自引用层次结构的业务结构;提供对参考数据对象和加载过程的自动化、治理和控制;提供全局到本地、外部到内部和特定于常规映射,不会中断现有元素;提供可自定义的工作流来控制与引用数据相关的业务流程,具有基于模型的安全控件,允许用户查看、添加或更新;使用户能够更改模型、主题、属性和关联并检索对象的任何早期版本。根据用户需求决定价格。
(3)Informatica MDM Reference 360
Informatica MDM Reference 360具有以下关键功能:完全基于云部署,提高了性能和可扩展性;端到端平台,有嵌入式数据集成、数据质量、流程管理;自助服务,为没有技术背景的业务用户构建的主数据管理和工作流;从新类型和源合并和交叉引用数据。根据用户需求决定价格。
(4)Reltio Cloud
Reltio建立了Reltio Cloud,一个基于图形的主数据管理工具,包括参考数据管理工具。Reltio构建在图形数据库上,在扩展数据存储和定义存储库中数据之间的明确关系方面给予其最大的灵活性。其主要功能:轻松与现有主数据管理工具或其他数据源集成,用户友好的界面,始终可用的云平台使零停机时间升级成为可能。根据用户需求决定价格。
数据可视化和数据分析工具
(1)Tableau
Tableau是一个在云上也可下载本地使用的BI平台,具有以下关键功能:轻松连接到数据源;可以访问团队、合作伙伴和客户端的可视化效果;通过交互式仪表板实现无限的数据探索;使用来自热门Web应用程序的数据,在几分钟内创建“仪表板启动器”,可操作的仪表板设置;自动创建交互式地图。价格是35到70美金每个月。
(2)Chartio
Chartio是一个基于云的BI可视化平台,具有以下关键功能:可以拖放数据以创建、筛选和共享仪表板;能与SQL中的数据库通信,直接提取见解;可以向数据添加连续的转换步骤以转换查询结果;即时可视化数据,会自动推荐最合适的图表;实时组合不同的数据源,无需探索原始数据即可获得可操作的见解。价格是249美金每个月。
(3)Looker BI
Looker是一个基于云的数据分析和可视化平台,具有以下关键功能:只要使用了LookML定义矩阵,Looker的数据建模语言和Looker编写SQL查询语句就可以回答关于这些矩阵的任何问题;通过易于阅读的仪表板,允许用户钻取和浏览,使数据变得美观;直接连接到数据库,无需下载数据提取或软件;向所有人(而不仅仅是分析师或数据科学家)开放访问仪表板和报告。每个月3000到5000美金。