Canonical3 是一个数据基础设施项目,致力于开发用于人工智能 (AI) 的通用数据层。它旨在通过将原始的、非结构化的输入转换为标准化的、可验证的和可供代理使用的格式来解决数据碎片化和不可靠的问题。 [1] [2]
Canonical3 定位为一个基础数据层,旨在解决人工智能系统部署中的一个关键瓶颈。该项目指出,尽管模型取得了快速进展,但人工智能代理由于依赖不一致和分散的数据源,经常表现出不可靠或失败的行为。该项目白皮书称这个问题为“规范差距”,它源于关键信息分散在不同的文档、日志和传感器馈送中,而没有通用的结构或格式。 [2]
Canonical3 提出的核心解决方案是一个名为 规范层 的框架。该层的功能类似于关系数据库中的数据规范化,充当中间媒介,在人工智能代理或模型使用信息之前对其进行标准化。目标是为数据建立一个单一、有序和可信的真实来源,使人工智能系统能够以更高的可靠性、确定性和可审计性运行。该项目于 2025 年 12 月通过创建其 X(前身为 Twitter)个人资料以及于 2025 年 12 月 12 日发布其 1.0 版本白皮书而公开推出。 [3] [2]
根据 2026 年初的项目材料,Canonical3 报告了早期的采用和吸引力指标。这些指标包括超过 50 TB 的企业数据正在进行主动规范化,每天有超过 2500 万个事件被规范化为结构化对象,以及超过 3000 个高风险程序被映射到可计算的工作流程中。该项目由一个由八名以上工程师和研究人员组成的核心团队开发。 [1]
Canonical3的架构被设计为更广泛的AI基础设施堆栈中的一个基础层,并包含一个详细的数据处理管道,以创建其结构化数据对象。
该项目定位于 AI 基础设施的三层概念模型中的基础层,即“[第一层]”。
该白皮书详细介绍了一个多阶段流程,用于将原始输入转换为规范对象:
该架构还包含向量图混合索引以及规范模式目录。该系统旨在支持语义搜索(用于查找概念上相似的信息)和确定性的结构化查询(用于根据定义的模式检索精确数据)。 [2]
Canonical3的产品主要围绕其核心数据层、其生成的结构化数据对象以及专门的数据表示语言和工具集。
主要产品是 Canonical Layer 本身,它是一个基础平台,充当原始数据源和 AI 应用程序之间的中介。它将各种输入标准化为共享的结构化格式,旨在确保 AI 代理使用的所有数据都是一致、可靠和可追溯的。 [1]
规范层将所有处理过的信息表示为两种主要的结构化数据原语,旨在使AI代理能够预测和解释。
CKO 代表从文档、政策和程序手册等来源提取的静态知识。它们旨在以清晰、版本化和机器可读的格式捕获规则、条例和操作指南。这使得 AI 代理能够基于一组稳定且明确的规则进行推理,而不是解释非结构化文本。 [1]
CSO 代表来自事件流和环境传感器的动态、真实世界数据。这些对象规范化来自 GPS、IMU(惯性测量单元)和其他传感器馈送等来源的输入。此过程确保一致的单位、时序和语义,从而为 AI 系统创建真实世界事件的标准化和统一视图。 [1]
Canonical3 提供了一个名为 CanL3 的开源数据格式和平台,CanL3 代表 Canonical3 符号语言。CanL3 是一种人类可读的、基于文本的格式,被定位为 JSON 的更紧凑和高效的替代方案,尤其是在优化大型语言模型 (LLM) 令牌使用方面。性能基准测试声称,该格式的字节大小比 JSON 小 36%,并且某些模型使用的令牌数量减少 45%。 [4]
CanL3 平台包括以下几个组件:
.schema.CanL3 文件中。TSL 允许定义数据类型并强制执行 13 种不同的验证约束,例如 required、pattern (regex)、unique 和 min/max 值或长度。 [4]Canonical3框架及其相关的CanL3工具集旨在为构建可靠的AI系统提供一系列功能。
核心数据层旨在实现以下系统性质量:
CanL3 符号语言及其工具为数据处理提供了特定的技术优势:
merge 和 update),以及通过 diff 函数进行更改跟踪。截至2026年初,Canonical3生态系统尚处于早期发展阶段,重点是集成和开发者社区参与。该项目报告称已与十多个代理框架和各种“核心系统”进行了实时集成,但这些框架和系统的具体名称尚未公开披露。 [2]
生态系统的一个关键部分是开源 CanL3 组件。符号语言、解析器和开发者工具的源代码可在GitHub上以MIT许可证获得,允许开发者构建和贡献该格式。该项目通过其官方网站、GitHub存储库和社交媒体渠道保持公开形象,以与开发者社区互动。 [4]
Canonical3框架适用于需要高风险、数据驱动自动化的各个行业。以下是该项目为其平台和CanL3格式列举的潜在用例:
Canonical3计划引入一个“代币化激励层”,围绕高质量规范数据的创建和维护,构建一个自我维持的经济体系。白皮书也将其称为“可选激励层”,并提到了“治理”模型,暗示可能计划发行代币以促进去中心化网络运营。 [1] [2]
该项目原生代币的拟议效用集中于奖励数据贡献者:
Canonical3由一个核心团队构建,该团队由八名以上的工程师和研究人员组成,他们在人工智能系统、数据基础设施和应用机器学习方面拥有丰富的经验。
Lavrentin Arutyunyan 担任该项目的首席数据科学家。他拥有莫斯科国立罗蒙诺索夫大学数学和物理科学博士学位。他的背景是应用数学和大规模数据系统。在加入Canonical3之前,Arutyunyan曾在Yandex领导负责人工智能评估、人类反馈强化学习(RLHF)数据集和生产分析的团队。在Canonical3,他领导数据质量、对齐和确定性评估的方法,确保代理在可靠和可验证的智能上运行。 [1]