有哪些开源数据治理工具,其特点是什么?
开源数据治理工具是指,数据质量管理与治理(包括:规范、质量控制)、元数据管理和元数据治理等。 开源数据治理工具可分为3类:平台和工具,其中应用程序框架的开源治理产品提供了平台型产品,其作用是使企业能够集成到他们的基础设施和系统中。 第一类:管理、规范和质量监控(CMM)方法和工具,例如 FineRepublic或 RepRoll。 第二类:应用程序框架的工具,例如 Citrix、 BuckingEffect与 TensorFlow。 第三类:元数据管理(SDM)方法和工具,例如 Citrix、 Apache Kubernetes和 TensorFlow等。 在此基础上,结合了第三类和第四类的特点,我们来介绍几个开源数据治理工具。
1. FineRepublic:开源数据治理平台
FineRepublic是一款通过简单易用的、经过优化的软件和标准,帮助开发人员控制数据质量、流程和实现数据的最佳实践的开源工具。 特点: 1.可视化将帮助开发人员在整个项目周期中实现最佳实践。 2.多功能工具: FineRepublic支持多种数据分析功能,包括元数据规范、质量监控和日志管理等。 3.可视化: Fine Republic支持各种数据格式,包括元信息(如元名称、版本号和日期等)、字段(例如字段类型、字段值)、属性(如属性值的名称或结构等)及其他信息,如数据标签,可对任何类型的查询进行可视化展示并执行操作。 4.持续集成: FineRepublic支持从本地环境到云环境的所有组件和工具进行持续集成,以满足开发人员在数据管理方面不断增长的需求。
2. RepRoll:应用程序框架的工具
在开发人员可以访问和维护 RepRoll方面,谷歌已经做出了很大的努力。 在 Google内部,谷歌于2018年7月宣布他们正在开发一种新的应用程序框架,该框架可以使所有员工对数据进行分析和操作。 这款应用程序框架包括用于在 Google云中构建数据集以及数据管理流程的工具“git”。 此外, GitHub上有一个名为“repRoll”的项目,旨在创建一个新的“repRoll”项目。 这个新功能被命名为“keyful”(数据清理)。 谷歌在其 GitHub页面上发布了该公告: 从那以后,用户开始可以通过各种方式访问 RepRoll,如从谷歌云访问数据清理功能、对 RepRoll进行测试和改进等方面进行访问。
3. Citrix:元数据管理和审核工具
Citrix是一款用于构建、管理和审核企业元数据的软件。 Citrix通过为应用程序框架提供强大的可扩展的元数据平台,从而增强了其应用程序本身的可见性。 该项目通过利用元数据管理和审核来帮助组织对其环境中的数据进行组织;它还使用基于规则的方法来评估和验证所有元数据集——包括用于支持元数据管理或审核的通用规则在内。 该项目已发布,并被《财富》杂志评为“2021年最佳应用程序”。 在 GitHub上, Citrix拥有超过1,000个贡献者,包括一些第三方应用程序框架,如 PyTorch、 Kubernetes、 OpenDataSet等。 Citrix还与许多其他开源应用程序框架集成,包括 TensorFlow、 Kubernetes、 Apache Spark和 Venku等。
更多数据治理相关资料请咨询客服获取,或者直接拨打电话:020-83342506