Canonical3

Wiki Powered byIconIQ
Canonical3

代理通证化平台 (ATP):使用代理开发工具包 (ADK) 构建自主代理
访问 IQ AI

Canonical3

Canonical3 是一个数据基础设施项目,致力于开发用于人工智能 (AI) 的通用数据层。它旨在通过将原始的、非结构化的输入转换为标准化的、可验证的和可供代理使用的格式来解决数据碎片化和不可靠的问题。 [1] [2]

概述

Canonical3 定位为一个基础数据层,旨在解决人工智能系统部署中的一个关键瓶颈。该项目指出,尽管模型取得了快速进展,但人工智能代理由于依赖不一致和分散的数据源,经常表现出不可靠或失败的行为。该项目白皮书称这个问题为“规范差距”,它源于关键信息分散在不同的文档、日志和传感器馈送中,而没有通用的结构或格式。 [2]

Canonical3 提出的核心解决方案是一个名为 规范层 的框架。该层的功能类似于关系数据库中的数据规范化,充当中间媒介,在人工智能代理或模型使用信息之前对其进行标准化。目标是为数据建立一个单一、有序和可信的真实来源,使人工智能系统能够以更高的可靠性、确定性和可审计性运行。该项目于 2025 年 12 月通过创建其 X(前身为 Twitter)个人资料以及于 2025 年 12 月 12 日发布其 1.0 版本白皮书而公开推出。 [3] [2]

根据 2026 年初的项目材料,Canonical3 报告了早期的采用和吸引力指标。这些指标包括超过 50 TB 的企业数据正在进行主动规范化,每天有超过 2500 万个事件被规范化为结构化对象,以及超过 3000 个高风险程序被映射到可计算的工作流程中。该项目由一个由八名以上工程师和研究人员组成的核心团队开发。 [1]

架构

Canonical3的架构被设计为更广泛的AI基础设施堆栈中的一个基础层,并包含一个详细的数据处理管道,以创建其结构化数据对象。

AI 基础设施堆栈

该项目定位于 AI 基础设施的三层概念模型中的基础层,即“”。

  • 第一层:规范层 (Canonical3): 这一基础层负责从各种来源摄取原始数据,并将其规范化为结构化的规范对象。它旨在作为整个堆栈的可信赖的记忆和智能基础。
  • 第二层:基础设施(计算与传输): 中间层由处理和移动规范层提供的规范化数据的系统组成。
  • 第三层:编排(代理与模型): 顶层由 AI 代理和模型组成,它们使用下层的结构化智能来执行任务和做出决策。 [1]

数据处理流程

该白皮书详细介绍了一个多阶段流程,用于将原始输入转换为规范对象:

  1. 摄取: 统一加载器摄取各种数据格式,包括文档(PDF、DOCX、HTML)、数据集(CSV、日志)和实时传感器流(GPS、IMU、音频、视频、IoT),并附加源元数据以实现可追溯性。
  2. 分解: 原始数据被分解为其基本组成部分。文本信息被解析为断言、规则和过程,而传感器信号被分析以识别事件、状态和环境特征。
  3. 规范化: 系统应用数据库规范化的原则来处理语义数据。此阶段旨在消除冗余、强制原子性并解决不一致性,以创建清晰、逻辑的表示。
  4. 模式对齐: 然后将分解和规范化的数据映射到正式的、特定于领域的规范模式。这些模式为医疗保健程序、财务合规性或机器人技术等领域的数据提供了严格的结构。
  5. 属性类型化: 每个数据属性都被分配一个特定的类型、单位、置信度分数和来源信息。这丰富了数据,使其更加明确和机器可读。
  6. 对象生成: 最后,完全处理的数据用于生成不可变的、版本化的规范知识对象 (CKO) 和规范感官对象 (CSO),然后对其进行索引以进行查询。 [2]

该架构还包含向量图混合索引以及规范模式目录。该系统旨在支持语义搜索(用于查找概念上相似的信息)和确定性的结构化查询(用于根据定义的模式检索精确数据)。 [2]

产品

Canonical3的产品主要围绕其核心数据层、其生成的结构化数据对象以及专门的数据表示语言和工具集。

Canonical Layer

主要产品是 Canonical Layer 本身,它是一个基础平台,充当原始数据源和 AI 应用程序之间的中介。它将各种输入标准化为共享的结构化格式,旨在确保 AI 代理使用的所有数据都是一致、可靠和可追溯的。 [1]

规范对象

规范层将所有处理过的信息表示为两种主要的结构化数据原语,旨在使AI代理能够预测和解释。

规范知识对象 (CKOs)

CKO 代表从文档、政策和程序手册等来源提取的静态知识。它们旨在以清晰、版本化和机器可读的格式捕获规则、条例和操作指南。这使得 AI 代理能够基于一组稳定且明确的规则进行推理,而不是解释非结构化文本。 [1]

规范感觉对象 (CSO)

CSO 代表来自事件流和环境传感器的动态、真实世界数据。这些对象规范化来自 GPS、IMU(惯性测量单元)和其他传感器馈送等来源的输入。此过程确保一致的单位、时序和语义,从而为 AI 系统创建真实世界事件的标准化和统一视图。 [1]

CanL3 符号语言

Canonical3 提供了一个名为 CanL3 的开源数据格式和平台,CanL3 代表 Canonical3 符号语言。CanL3 是一种人类可读的、基于文本的格式,被定位为 JSON 的更紧凑和高效的替代方案,尤其是在优化大型语言模型 (LLM) 令牌使用方面。性能基准测试声称,该格式的字节大小比 JSON 小 36%,并且某些模型使用的令牌数量减少 45%。 [4]

CanL3 平台包括以下几个组件:

  • 开发工具: 该项目提供了一套工具,包括一个用于数据探索的交互式命令行界面 ()、一个用于语法高亮的 VS Code 扩展,以及用于序列化、查询和数据修改的 TypeScript 优先 API。
  • CanL3 模式语言 (TSL): CanL3 包括 TSL,它自己的模式定义语言,用于 .schema.CanL3 文件中。TSL 允许定义数据类型并强制执行 13 种不同的验证约束,例如 requiredpattern (regex)、uniquemin/max 值或长度。 [4]

功能

Canonical3框架及其相关的CanL3工具集旨在为构建可靠的AI系统提供一系列功能。

平台特性

核心数据层旨在实现以下系统性质量:

  • 数据标准化: 系统摄取并将异构数据类型标准化为共享格式,从而创建单一的事实来源。
  • 可靠的代理行为: 通过为AI系统提供一致且统一的数据源,该平台旨在防止冲突的解释并确保更可预测的代理行为。
  • 确定性的工作流程: 使用单一、可信的数据状态允许代理操作和决策遵循基于结构化输入的清晰、可预测的规则。
  • 可审计性设计: 内置的版本控制和数据沿袭允许将所有结果追溯到使用的特定源数据和版本,从而使所有AI操作完全可审计。
  • 可组合性: 共享数据基础旨在允许多个不同的AI代理协调并基于相同的验证信息进行操作,从而能够创建更复杂、可互操作的系统。 [1]

CanL3 技术特性

CanL3 符号语言及其工具为数据处理提供了特定的技术优势:

  • 序列化: 该格式旨在提高效率,目标是在字节和令牌方面比 JSON 小 32-45%。它仍然是人类可读的,并提供与 JSON 的往返安全转换。
  • 查询和导航: 该平台支持类似 JSONPath 的查询、过滤表达式、通配符和树遍历。包含 LRU(最近最少使用)缓存以加速重复查询。
  • 数据修改: 提供了一套用于 CRUD(创建、读取、更新、删除)操作的 API,批量操作(如 mergeupdate),以及通过 diff 函数进行更改跟踪。
  • 索引和性能: CanL3 支持哈希、BTree 和复合索引,以实现快速查找,并针对大型文件的流处理进行了优化,具有低内存使用率。
  • 高级优化: 该平台包含许多压缩和优化技术,包括字典编码、增量编码、游程编码、位打包和数值量化。它还具有针对 LLM 的分词器感知优化策略。
  • 模式和验证: CanL3 支持针对 TSL 中定义的模式进行运行时数据验证,并可以选择严格模式强制执行以及从模式自动生成 TypeScript 类型。 [4]

生态系统

截至2026年初,Canonical3生态系统尚处于早期发展阶段,重点是集成和开发者社区参与。该项目报告称已与十多个代理框架和各种“核心系统”进行了实时集成,但这些框架和系统的具体名称尚未公开披露。 [2]

生态系统的一个关键部分是开源 CanL3 组件。符号语言、解析器和开发者工具的源代码可在GitHub上以MIT许可证获得,允许开发者构建和贡献该格式。该项目通过其官方网站、GitHub存储库和社交媒体渠道保持公开形象,以与开发者社区互动。 [4]

用例

Canonical3框架适用于需要高风险、数据驱动自动化的各个行业。以下是该项目为其平台和CanL3格式列举的潜在用例:

  • 医疗分诊: 规范化患者病历文档、实验室结果和实时监控数据,以便AI代理进行一致的临床评估。
  • 机器人技术: 标准化并合并来自多个传感器的数据,例如SLAM(同步定位与地图构建)、IMU和摄像头,以创建用于自主导航的统一世界模型。
  • 合规与金融: 通过将行动转换为可计算的CKO工作流程,自动验证行动是否符合已记录的政策和复杂的监管规则。
  • 供应链管理: 将来自不同合作伙伴和系统的物流清单、运输更新和库存数据统一并协调到单个连贯的视图中。
  • 企业AI: 对内部知识库、文档和日志进行向量化和结构化,以创建可靠的“企业大脑”,供内部聊天机器人和代理查询。
  • 空间操作: 合并和规范化来自卫星、无人机和其他地理空间传感器的遥测数据,用于农业、国防和环境监测等应用。
  • LLM提示工程: 使用紧凑的CanL3格式向大型语言模型提供结构化数据,旨在降低token成本和API费用。
  • 数据工程: 促进数据管道中大型数据集的流处理,并将该格式用于结构化日志聚合,以简化查询和分析。 [1] [4]

代币经济学

Canonical3计划引入一个“代币化激励层”,围绕高质量规范数据的创建和维护,构建一个自我维持的经济体系。白皮书也将其称为“可选激励层”,并提到了“治理”模型,暗示可能计划发行代币以促进去中心化网络运营。 [1] [2]

Token Utilities

该项目原生代币的拟议效用集中于奖励数据贡献者:

  • 创建者奖励: 为创建和向网络贡献有价值的标准数据集的个人和组织提供永久的奖励流。
  • 基于查询的收益: 每次查询其标准数据时,为数据所有者生成基于代币的收益,从而激励有用情报的维护。 [1]

分配和治理

  • 截至2026年初,关于该项目的代币的具体细节——包括其名称、代码、总供应量、分配模型和治理结构——尚未在现有材料中明确说明。 [1] [2]

已确认的合作伙伴

  • 尽管该项目声明它具有“跨核心系统的实时集成”,但在截至2026年初提供的文档中,尚未正式公布任何特定的企业合作伙伴或项目合作。 [1] [2]

关键人物

Canonical3由一个核心团队构建,该团队由八名以上的工程师和研究人员组成,他们在人工智能系统、数据基础设施和应用机器学习方面拥有丰富的经验。

Lavrentin Arutyunyan 担任该项目的首席数据科学家。他拥有莫斯科国立罗蒙诺索夫大学数学和物理科学博士学位。他的背景是应用数学和大规模数据系统。在加入Canonical3之前,Arutyunyan曾在Yandex领导负责人工智能评估、人类反馈强化学习(RLHF)数据集和生产分析的团队。在Canonical3,他领导数据质量、对齐和确定性评估的方法,确保代理在可靠和可验证的智能上运行。 [1]

参考文献

首页分类排名事件词汇表