环球快消息!火山引擎DataLeap:一个易用、高效的数据目录,是如何搭建的?
企业如何找到数据、了解数据以及使用数据?
这离不开数据目录的能力。数据目录有着类似于“字典”的作用,能够帮助数据生产者和使用者快速定位数据、解释数据、找到数据,并从中提取业务价值。
对以研发人员为代表的数据生产者来说,他们利用数据目录来组织、梳理各类元数据。例如,数据生产者会将元数据以目录等形式编排到一起,方便维护,并通过打业务标签、添加应用场景描述、字段解释等丰富业务相关属性。
【资料图】
对于数据分析师、产品、运营等数据使用者来说,他们通过数据目录来查找和理解数据,例如通过关键字检索,或目录浏览,来查找业务场景数据,并浏览详情介绍、字段描述、产出关系等,进一步理解并利用数据决策。
在字节跳动,也有这么一套被内部广泛使用的数据目录系统。目前,该系统已通过火山引擎DataLeap数据地图平台对外输出。外部用户也可以在DataLeap数据地图平台,收集、组织、访问和补充元数据信息,为自身数据建设和治理提供支持。
火山引擎DataLeap数据地图平台-数据目录
要构建一套扩展性强、易维护且易用的数据目录系统并非易事。在大数据领域,各类计算和存储系统百花齐放,概念和原理又千差万别,对于元数据的采集、组织、理解、信任等,都带来了很大挑战。
在调研各个开源软件及技术体系基础上,火山引擎DataLeap选择基于Apache Atlas改造,而这套数据目录系统主要依赖五大关键技术:
第一,数据模型统一。一方面,DataLeap通过充分复用各种元数据类型间的相似能力,获得数据模型定制灵活性;另一方面,DataLeap将数据源关联的能力进行收敛到一起,以降低后续的维护成本。
第二,数据接入标准化。当用户接入新的元数据时,只需要重新编写Source和Diff Operator,而其他组件可直接复用,以标准化的connector节省接入和运维成本。
第三,搜索优化。在数据目录中,搜索是用户最广泛使用的功能,也是用户找数主要的手段。搜索优化可分为离线部分和在线部分。离线部分负责汇集各类与搜索相关的数据,完成数据清洗或者模型训练,再根据不同的用途,写入不同的存储,供给在线搜索模块使用。在线部分则分为搜索理解、召回、精排三个主要阶段,步骤和概念与通用搜索引擎对齐。
第四,血缘能力。完备的血缘能力,既可以帮助数据生产者梳理、组织元数据,也可以帮助数据消费者找数、理解数据上下文。火山引擎DataLeap在设计上充分考虑血缘链路的多样性和复杂性,并在血缘质量上,通过定义有效的血缘准确率、覆盖率和时效性,确保血缘信息准确、全面和实时性。
第五,存储层优化。当业务中有越来越多的元数据接入数据目录,图存储中的点和边将分别到达百万和千万量级,造成读写性能出现问题。在读优化和写优化层面,火山引擎DataLeap分别通过开启MutilPreFetch 能力、去除Guid全局唯一性检查,最终实现小表性能小于100ms、中表性能2~5s、大表性能0.5~1min。
据介绍,火山引擎DataLeap能帮助企业快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,其中数据目录能力主要涵盖在数据地图平台,该平台通过提供数据检索、元数据详情查看、数据理解等功能,解决找数难、理解数据难的痛点,同时支持数据专题、血缘图谱、数据发现、库表管理等特色功能。
目前,火山引擎DataLeap的数据地图平台已接入全链路核心元数据,包括LAS、MySQL、ByteHouse CE、ByteHouse CDW、TOS、LasFS、EMR hive等,提供可视化的血缘关系展示能力,帮助用户全面的探查了解数据,支持表、字段级别血缘可视化查询,以及按层级、范围筛选展示,为用户提供灵活、易用的数据服务。(作者:田轩棋)
关键词:
2023-06-19 15:55:15
2023-06-19 15:54:33
2023-06-19 15:52:39
2023-06-19 15:35:02
2023-06-19 15:16:44
2023-06-19 14:53:07
2023-06-19 14:21:59
2023-06-19 13:59:49
2023-06-19 13:57:47
2023-06-19 13:54:07
2023-06-19 13:53:16
2023-06-19 13:52:26
2023-06-19 13:49:12
2023-06-19 13:45:49
2023-06-19 13:42:56
2023-06-19 13:40:04
2023-06-19 13:35:44
2023-06-19 13:24:12
2023-06-19 12:59:36
2023-06-19 12:53:22
2023-06-19 12:52:59
2023-06-19 12:41:36
2023-06-19 12:39:54
2023-06-19 12:38:17
2023-06-19 12:04:29
2023-06-19 11:56:39
2023-06-19 11:54:57
2023-06-19 11:50:14
2023-06-19 11:49:12
2023-06-19 11:47:53
2023-06-19 11:44:11
2023-06-19 11:05:51
2023-06-19 10:53:08
2023-06-19 10:51:58
2023-06-19 10:51:51
2023-06-19 10:50:43
2023-06-19 10:50:16
2023-06-19 10:47:04
2023-06-19 10:37:10
2023-06-19 10:35:51
2023-06-19 10:34:00
2023-06-19 10:31:46
2023-06-19 10:17:07
2023-06-19 09:57:32
2023-06-19 09:55:19
2023-06-19 09:53:39
2023-06-19 09:53:17
2023-06-19 09:50:59
2023-06-19 09:50:39
2023-06-19 09:50:31
2023-06-19 09:49:37
2023-06-19 09:44:14
2023-06-19 09:36:56
2023-06-19 09:36:24
2023-06-19 09:34:12
2023-06-19 09:30:01
2023-06-19 09:20:46
2023-06-19 09:13:53
2023-06-19 08:55:38
2023-06-19 08:54:16
2023-06-19 08:49:39
2023-06-19 08:47:26
2023-06-19 08:44:51
2023-06-19 08:43:57
2023-06-19 08:34:25
2023-06-19 07:47:49
2023-06-19 07:45:57
2023-06-19 07:43:23
2023-06-19 07:41:48
2023-06-19 07:35:08
2023-06-19 05:51:28
2023-06-19 05:45:12
2023-06-19 05:38:41
2023-06-19 05:36:32
2023-06-19 05:35:11
2023-06-18 22:21:23
2023-06-18 21:51:50
2023-06-18 21:51:13
2023-06-18 21:45:41
2023-06-18 21:38:15
2023-06-18 21:35:47
2023-06-18 21:34:59
2023-06-18 21:01:58
2023-06-18 20:52:42
2023-06-18 20:46:41
2023-06-18 20:46:15
2023-06-18 20:46:12
2023-06-18 20:45:04
2023-06-18 20:45:03
2023-06-18 20:34:45
2023-06-18 19:57:09
2023-06-18 19:34:37
2023-06-18 19:23:25
2023-06-18 18:43:17
2023-06-18 18:34:05
2023-06-18 17:55:17
2023-06-18 17:11:07
2023-06-18 16:58:18
2023-06-18 16:51:25
2023-06-18 16:13:49
相关新闻