Aloudata推动数据编织(Data Fabric)在中国企业的落地应用

Gartner在2019年首次提出“数据编织”(Data Fabric)的概念,随后几年都把它列为数据和分析技术领域的重要趋势。了解过数据编织的朋友大致都知道数据编织是管理数据的架构和技术框架,但更具体的可以落地的内容可能知之甚少。

在Gartner今年发布的数据、分析和人工智能技术成熟度曲线中,Gartner将数据编织视为可在2-5年内落地的技术。Aloudata(大应科技)CMO 刘靓在最近的一次采访中表示,Aloudata对于国内数据编制落地的预期非常乐观。

[MD:Title]

Aloudata正在推动中国企业落地数据编织

日前,Aloudata正式发布了《数据编织价值评估指南》的白皮书,介绍了数据编织的价值主张、实现机制,以及如何进行实践落地并进行价值评估,用来帮助企业更好地理解并应用数据编织。

刘靓表示,在与大量客户交流中发现,企业普遍对数据编织这一理念关注度高,但苦于落地实践时经常面临诸多困惑,包括场景如何适配、价值如何评估等关键问题,而白皮书针对这些问题提供了更具针对性、实践性也更强的指南。

白皮书中提到,如今的数据管理领域面临诸多挑战,包括数据需求与链路复杂性的增长、合规与跨域以及云环境的多样性三大方面挑战。而数据编织被视为未来数据管理的核心解决方案,能够应对复杂的数据环境,更高效地管理和释放数据价值。

西卡中国BI和数据负责人袁莺作为特邀嘉宾出席了发布会,“我们拥有云上和云下的数据资源,这些数据跨越不同区域,并涉及数据安全与合规等问题。如果采用传统数据架构整合数据,将耗费大量成本和精力,也无法保证数据的时效性和可用性,难以有效支持业务的数据消费需求。”她强调,“采用数据编织能够将整个数据整合周期缩短 40%,并能适应快速变化的业务需求,实现数据整合与不断调整的并行处理。”

作为国内首个逻辑数据编织平台,Aloudata AIR 有三大核心价值

业界普遍将数据编织定义为一种数据架构理念,对其能力边界尚无明确标准。而Aloudata自研的国内首个逻辑数据编织平台Aloudata AIR则清晰定义了“零搬运、免运维、自治理”的价值主张,它可以解决数据开发过程中的效率、成本和复杂性问题。

与业界许多数据虚拟化方案多侧重在数据的集成与查询场景不同,Aloudata AIR将NoETL作为数据虚拟化技术的核心能力,强调其在数据集成、加工与服务全流程中的价值,也就是:无需事前搬运数据、无需事中运维ETL任务、无需事后计存治理。

[MD:Title]

“零搬运”是指Aloudata AIR通过数据虚拟化技术实现逻辑集成,秒级完成数据集成后,将跨源、跨引擎的数据用一种SQL语言实现统一查询访问。这使得数据在整个开发和使用过程中无需进行物理搬运,这种做法不仅避免了数据多次复制造成的存储和计算资源浪费,而且能更好地保证数据实时性。

[MD:Title]

“免运维”指的是无需事中运维ETL任务。ETL是数据开发的核心环节,但它的操作复杂,给开发者带来了沉重的负担。Aloudata通过查询加速与任务下推技术,在实现性能加速的同时自动化封装了复杂的ETL的任务开发和作业执行。逻辑数据集变更后,系统自动更新下游数据,无需繁琐的手动回刷数据。这一做法显著减少了人工干预和出错风险,使数据开发更敏捷。

[MD:Title]

“自治理”的核心就是平台自动感知和优化数据资源的使用。它不仅会根据需求生成物化表来提升查询速度,降低存储与计算成本。它还会实时监控数据消费状态,如果物化表一段时间没人用,系统会通过自动回收来避免资源浪费。这样不仅可以提升资源利用率和查询性能,还可以减少人力管理的成本。

逻辑数据编织平台 Aloudata AIR通过“零搬运、免运维、自治理”消除了传统数据开发中的瓶颈,让数据管理变得更加高效、敏捷,同时降低了运维成本和复杂性。这三大特点就是Aloudata落地数据编织架构的核心价值。

Aloudata提出了一套关于数据编织的价值评估框架

在经济下行、IT预算紧缩的背景下,很多企业都非常看重对投资回报率(ROI)的量化分析,希望能做出更明智的技术选型决策。为此,Aloudata在《数据编织价值实现评估指南》白皮书中,提出了业界首个针对数据编织技术的价值评估框架,从三个评估维度和两个关键指标入手,帮助企业衡量投入产出比。

Aloudata认为,要从提升数据交付效率、降低数据膨胀系数和减少数据管理成本三方面下手评估数据编织架构的价值。

所谓“数据交付效率”关注的是业务提出数据需求后,能多快得到结果,能否端到端地提升数据集成、整合到服务的交付效率,把数据需求的响应周期从周提升到天,实现数据交付10倍提效。

“数据膨胀系数”衡量了数据被多次重复拷贝的情况,关注那些能导致数据仓库资源迅速膨胀的问题,能否从机制设计上系统化地减少数据拷贝,节省存算资源,提升存算的有效性和经济性,至少节省30%的存算成本。

“数据管理成本”包括数据开发、运维和治理中的人力投入与资源消耗。减少这些成本在于通过简化系统技术概念,降低数据平台上手门槛和减少运维成本,并提升数据管理的自动化水平和逐步增强数据平台的“智驾”能力,至少节省70%的数据管理成本。

此外,白皮书指出,可以通过“当天需求满足率”和“当天数据动销率”两个关键指标进行量化评估,分别从业务需求响应和数据资源利用的视角评估数据编织的实际价值。

“当天需求满足率”指的是,业务团队提出的数据需求,能在当天得到满足的比例。这是站在业务方视角评估和感受数据平台能力和价值的唯一核心指标,也是数据产生业务价值的重要体现之一。“当天数据动销率”是指当天有更新的数据在当天或未来一段时间内的使用率。它体现了数据的利用效率和价值产出。如果数据长期未被使用,企业可以通过优化数据资产管理回收这些资源,降低存储和运维成本。

依托Aloudata AIR,首创证券落地数据编织架构

首创证券是一家知名券商,数据团队规模并不大,在构建数据仓库时面临着人员短缺和Hadoop技术栈不熟悉的挑战。传统Hadoop数仓体系需要庞大的ETL开发团队和深厚的技术积累,而首创证券的数据团队希望能找到一种更加精益的架构方案。

[MD:Title]

经过认真评估,首创证券选择了Aloudata AIR逻辑数据编织平台。通过这一平台,他们构建了逻辑数仓,将多个业务系统的数据进行无缝连接。

具体而言,在ODS(数仓的操作数据存储)层,数据通过逻辑连接直接快速集成,无需物理搬运。在DWD(数仓的明细数据层)层,数仓沉淀了历史数据。这种分层架构不仅简化了数仓的结构,还实现了数据的按需加速与物化,提高了数据处理的灵活性和经济性。

此外,首创证券还使用了Aloudata CAN自动化指标平台,形成了从数仓数据沉淀到业务指标开发的完整自动化链路。Aloudata AIR负责逻辑编织和数据沉淀,而Aloudata CAN基于这些明细数据构建了业务语义模型与指标。这一组合让业务指标开发和分析需求变得更高效。

在实际应用中,首创证券的源头数据库多达100多个,包含数万张表。在传统架构下,这些数据的集成可能需要耗费大量时间和资源,需要处理成千上万的任务。而通过 Aloudata AIR,这些表在短短一天内便完成了集成。

更重要的是,真正沉淀到DWD层的物理表不到100张,极大降低了数据管理的复杂性。首创证券的报表查询效率也有了显著提升,一秒内响应率达到95%。这得益于DWD层的加速策略以及应用层的查询自动路由机制,确保了高效的查询执行。

综上,Aloudata AIR逻辑数据编织平台与 Aloudata CAN自动化指标平台的结合,为首创证券带来了全面的效率提升。无论是数据运营效率、查询性能,还是管理成本,首创证券的数据编织实践实现了质的飞跃,为中小型团队应对数据复杂性提供了优秀的参考案例。