联系我们
 

数据成熟度进阶:数据与AI投资的框架与实践

2025年1月28日 | 分钟阅读时间
By

Ricardo Mendes

在当今快速发展的世界中,数据与人工智能(AI)领域的工具、供应商和知识领域繁多,许多公司难以真正实现数据驱动。因此,采用渐进式的方法来利用数据与AI显得尤为重要。本文将分享我们在过去六年中为美国和巴西公司提供咨询服务时,通过实践总结出的一种思维模式。

渐进式方法的价值: 如果我们能够从细微处着手,并根据需求逐步改进,这听起来是否易于实施?接下来的段落将介绍如何实现这一目标,并提供一个可定制的框架,以适应不同企业的需求。

初始评估

剑桥词典将“渐进式”定义为逐渐发生、以一系列小步骤进行的过程。第一步是确定哪些方面可以随着时间的推移逐步改进——我们称之为“支柱”。需要注意的是,框架的实施应由一组致力于(或至少有意)提升公司数据与AI标准的个人领导。

根据经验,数据与AI团队经常讨论以下主题:战略、存储、治理、分析和工程。这些将作为本次讨论的五大支柱,但在采用框架时,您可以选择使用更多、更少或完全不同的支柱。首先,确定公司内部主要讨论的数据与AI相关主题,但最初避免列出过多的项目——后续可以逐步扩展。

第二步是评估公司在每个支柱上的成熟度水平。一个简单的在线调查,针对适当的受众,可以非常有效。这里的“适当受众”指的是与数据与AI计划相关的个人。为了确保结果的可靠性,避免偏见,调查应涵盖不同的角色和层级。

调查问题应直接与支柱相关,答案应提供可衡量的见解。以下是一个参考形式:

Image 1. Sample Data Maturity Survey Form — Image by CI&T

在考虑某个项目(如数据目录)是否可用时,设定一个阈值以排除异常值。例如,规定至少30%的回应为“TRUE”才能认为该项目在公司中可用。

接下来,评估每个支柱的可用项目数量。结果可以通过雷达图可视化,有效突出公司的优势和劣势。

Image 2. Initial Data Maturity Assessment — Image by CI&T

第一周期

负责提升公司数据与AI标准的团队将内部审查结果,并与其他利益相关者合作,共同确定优先改进的领域,以推动进入下一个成熟度水平。

下图展示了此类优先级讨论的结果。它表明,公司将在第一周期(周期的持续时间,如一个季度,可以根据公司需求调整)专注于数据治理和数据工程。

Image 3. Planning the first iteration cycle — Image by CI&T

在治理方面,初步评估显示公司缺乏数据所有权和数据质量能力。由于目标是将治理从1级提升到2级,建议在此周期内优先解决一个主题。

在数据工程方面,评估显示公司尚未实施基础设施即代码(IaC)。引入这一能力应是本周期的重点。

在周期结束时,雷达图应该是这样的:

Image 4. Finishing the first iteration cycle — Image by CI&T

第二周期

在我们的虚构场景中,数据工程已经达到了3级,主要项目均已到位。然而,鉴于数据工程对公司的重要性,团队可能会决定在第二周期中进一步细分并深入探讨更多细节。为此,针对数据工程师的第二次调查可以帮助澄清他们对工程实践采用的看法,如下图所示。

Image 5. Sample Data Engineering Maturity Survey Form — Image by CI&T

与初始评估不同,本次调查的答案选项可能会有所变化。这是因为我们的目标不再是统计每个支柱下有多少项目可用,而是了解特定个体(在本例中为数据工程师)对每个项目的实际感知。因此,答案选项不再仅仅是“是”或“否”,而是采用更细致的分级,例如:
完全没有(0)
概念验证/试点阶段(1)
是,但需要改进(2)
是,已经足够好(3)
这种设计能够更准确地反映数据工程师对当前工程实践的实际体验和改进需求。

基于调查结果,框架实施的领导团队可以开始规划第二周期的改进目标。例如:
编码标准:从“是,但需要改进(2)”提升到“是,已经足够好(3)”。
持续集成/持续交付(CI/CD):从“概念验证/试点阶段(1)”提升到“是,但需要改进(2)”。
基础设施即代码(IaC):同样从“概念验证/试点阶段(1)”提升到“是,但需要改进(2)”。
此外,团队还意识到,为了长期维持这些改进,现在是时候正式成立一个数据战略指导委员会。这一举措将有助于推动数据战略从1级提升到2级,确保公司在数据管理和AI应用方面的持续进步。

总结:
通过第二次调查,团队不仅能够更精准地识别数据工程领域的改进点,还能为未来的周期制定更具针对性的计划。同时,成立数据战略指导委员会标志着公司在数据治理和战略规划方面迈出了重要一步,为长期的数据驱动转型奠定了坚实基础。

Image 6. Planning the second iteration cycle — Image by CI&T

在第二周期结束时,成熟度等级应如下所示:

Image 7. Finishing the second iteration cycle — Image by CI&T

第三周期

随着合适的战略和工程实践到位,指导委员会同意在第三周期中提升数据治理标准。遵循前一周期的方法,他们将利用这个机会拆分项目,以使意图更加明确,并与团队需求保持一致。

Image 8. Planning the third iteration cycle — Image by CI&T

第N周期

我们希望前面的部分已经足够详细地解释了所提出框架的渐进性质。后续的N个周期将遵循这一过程,逐步提高成熟度水平。

除了最初考虑的支柱外,指导委员会还可以向雷达图添加新的支柱。鉴于当前的发展势头,人工智能是一个不错的选择,尤其是在公司已经建立了基本的数据能力之后。数据团队如何利用AI工具提高生产力?他们应该构建自己的代理还是采用第三方工具?公司的数据是否适合训练AI模型?这些问题需要深思熟虑的讨论,而本文所述的渐进式方法可以有效解决这些问题。

随着新的数据点被添加到图表中,不可避免地会出现一个问题:如何管理日益复杂的可视化?项目过多、价值尺度不同等挑战将随之而来。

为了解决这个问题,雷达图需要在某个时刻进行拆分。图9展示了在规划未来迭代时,如何处理AI支柱的加入以及治理和工程的新雷达图的建议。请注意,之前属于拆分支柱的项目已从主图表中移除,简化了可视化。它们的数据现在出现在右侧,形成一个专门的仪表板。

Image 9. The Data Maturity Assessment Dashboard — Image by CI&T

结语

正如您所见,随着指导委员会对框架越来越熟悉,并学会更有效地解决各个领域的需求,复杂性也在增加。这种进展有助于公司在数据与AI的旅程中茁壮成长。在此过程中,无疑会出现许多其他问题,例如:

  • 我们应该何时重新评估支柱和项目?在拆分支柱后?在完成一个周期后?
  • 除了调查结果外,是否可以使用其他指标(如洞察时间和成本降低)来评估框架结果?

凭借经验和战略支持,委员会将能够很好地回答这些问题,并定制框架以有效管理变化和改进。如需进一步了解如何最大化数据的价值,请联系我们。


Ricardo Mendes

Ricardo Mendes

Principal Data Consultant