Canonical3는 인공 지능(AI)을 위한 범용 데이터 레이어를 개발하는 데이터 인프라 프로젝트입니다. 원시의 비정형 입력을 표준화되고 검증 가능하며 에이전트가 즉시 사용할 수 있는 형식으로 변환하여 데이터 파편화 및 신뢰성 문제를 해결하는 것을 목표로 합니다. [1] [2]
Canonical3는 AI 시스템 배포의 중요한 병목 현상을 해결하기 위해 설계된 기본 데이터 레이어로 자리매김하고 있습니다. 이 프로젝트는 모델의 빠른 발전에도 불구하고 AI 에이전트가 일관성 없고 단편화된 데이터 소스에 의존하기 때문에 신뢰할 수 없거나 실패한 동작을 보이는 경우가 많다는 점을 지적합니다. 이 문제는 프로젝트의 백서에서 "Canonical Gap"이라고 부르는 것으로, 중요한 정보가 공통 구조나 형식 없이 분리된 문서, 로그 및 센서 피드에 분산되어 있기 때문에 발생합니다. [2]
Canonical3에서 제안하는 핵심 솔루션은 Canonical Layer라는 프레임워크입니다. 이 레이어는 관계형 데이터베이스의 데이터 정규화와 유사하게 작동하여 AI 에이전트 또는 모델에서 사용되기 전에 정보를 표준화하는 중간 역할을 합니다. 목표는 데이터에 대한 단일하고 정돈되고 신뢰할 수 있는 소스를 구축하여 AI 시스템이 더 높은 신뢰성, 결정성 및 감사 가능성으로 작동할 수 있도록 하는 것입니다. 이 프로젝트는 2025년 12월에 X(이전의 Twitter) 프로필을 생성하고 2025년 12월 12일에 버전 1.0 백서를 게시하면서 공개적으로 소개되었습니다. [3] [2]
2026년 초의 프로젝트 자료에 따르면 Canonical3는 초기 채택 및 견인력 지표를 보고했습니다. 여기에는 50테라바이트 이상의 엔터프라이즈 데이터가 활성 정규화를 거치고, 매일 2,500만 건 이상의 이벤트가 구조화된 객체로 정규화되고, 3,000건 이상의 중요한 절차가 계산 가능한 워크플로로 매핑되는 것이 포함되었습니다. 이 프로젝트는 8명 이상의 엔지니어와 연구원으로 구성된 핵심 팀에 의해 개발되고 있습니다. [1]
Canonical3의 아키텍처는 광범위한 AI 인프라 스택 내의 기본 레이어로 설계되었으며, 구조화된 데이터 객체를 생성하기 위한 상세한 데이터 처리 파이프라인을 포함합니다.
이 프로젝트는 AI 인프라를 위한 3계층 개념 모델에서 기본 계층 또는 "Layer 1"으로 자리매김합니다.
본 백서는 원시 입력을 정규 객체로 변환하는 다단계 파이프라인에 대해 자세히 설명합니다.
아키텍처는 또한 정규 스키마 카탈로그와 결합된 벡터-그래프 하이브리드 인덱스를 통합합니다. 이 시스템은 의미론적 검색(개념적으로 유사한 정보를 찾기 위해)과 결정적이고 구조화된 쿼리(정의된 스키마를 기반으로 정확한 데이터를 검색하기 위해)를 모두 지원하도록 설계되었습니다. [2]
Canonical3의 제품은 핵심 데이터 레이어, 생성하는 구조화된 데이터 객체, 특수 데이터 표기 언어 및 도구 세트를 중심으로 합니다.
주요 제품은 Canonical Layer 자체이며, 이는 원시 데이터 소스와 AI 애플리케이션 사이의 중개자 역할을 하는 기본 플랫폼입니다. 이는 다양한 입력을 공유되고 구조화된 형식으로 표준화하여 AI 에이전트가 소비하는 모든 데이터가 일관성, 신뢰성 및 추적 가능성을 갖도록 하는 것을 목표로 합니다. [1]
캐노니컬 레이어는 AI 에이전트가 예측하고 해석할 수 있도록 설계된 두 가지 주요 유형의 구조화된 데이터 기본 요소로 모든 처리된 정보를 나타냅니다.
CKO(Canonical Knowledge Objects)는 문서, 정책, 절차 매뉴얼과 같은 소스에서 추출된 정적 지식을 나타냅니다. 규칙, 규정 및 운영 지침을 명확하고 버전 관리되며 기계가 읽을 수 있는 형식으로 캡처하도록 설계되었습니다. 이를 통해 AI 에이전트는 비정형 텍스트를 해석하는 대신 안정적이고 명시적인 규칙 세트를 기반으로 추론할 수 있습니다. [1]
CSO는 이벤트 스트림 및 환경 센서에서 파생된 동적 실제 데이터를 나타냅니다. 이러한 객체는 GPS, IMU(관성 측정 장치) 및 기타 센서 피드와 같은 소스의 입력을 정규화합니다. 이 프로세스는 일관된 단위, 타이밍 및 의미 체계를 보장하여 AI 시스템을 위한 실제 이벤트에 대한 표준화되고 통합된 뷰를 생성합니다. [1]
Canonical3는 CanL3라는 오픈 소스 데이터 형식 및 플랫폼을 제공합니다. CanL3는 Canonical3 Notation Language의 약자입니다. CanL3는 사람이 읽을 수 있는 텍스트 기반 형식으로, 특히 대규모 언어 모델(LLM) 토큰 사용량을 최적화하기 위해 JSON보다 더 작고 효율적인 대안으로 자리매김하고 있습니다. 성능 벤치마크에 따르면 이 형식은 바이트 크기 기준으로 JSON보다 최대 36% 더 작고 특정 모델에서 45% 더 적은 토큰을 사용합니다. [4]
CanL3 플랫폼에는 다음과 같은 여러 구성 요소가 포함되어 있습니다.
.schema.CanL3 파일에서 사용되는 자체 스키마 정의 언어인 TSL이 포함되어 있습니다. TSL을 사용하면 데이터 유형을 정의하고 required, pattern(정규식), unique 및 min/max 값 또는 길이와 같은 13가지 유효성 검사 제약 조건을 적용할 수 있습니다. [4]Canonical3 프레임워크와 관련 CanL3 툴셋은 신뢰성 있는 AI 시스템 구축을 위한 다양한 기능을 제공하도록 설계되었습니다.
핵심 데이터 레이어는 다음과 같은 시스템적 품질을 가능하게 하는 것을 목표로 합니다.
CanL3 표기 언어 및 도구는 데이터 처리에 있어 다음과 같은 기술적 이점을 제공합니다.
merge 및 update와 같은 대량 작업, diff 함수를 통한 변경 사항 추적을 위한 API 세트를 사용할 수 있습니다.2026년 초 현재, Canonical3 생태계는 개발 초기 단계에 있으며, 통합 및 개발자 커뮤니티 참여에 중점을 두고 있습니다. 이 프로젝트는 10개 이상의 에이전트 프레임워크 및 다양한 "핵심 시스템"과의 라이브 통합을 보고하지만, 이러한 프레임워크 및 시스템의 구체적인 이름은 공개되지 않았습니다. [2]
생태계의 핵심 부분은 오픈 소스 CanL3 구성 요소입니다. 표기법 언어, 파서 및 개발자 도구에 대한 소스 코드는 MIT 라이선스 하에 GitHub에서 사용할 수 있으므로 개발자는 형식을 사용하여 빌드하고 기여할 수 있습니다. 이 프로젝트는 개발자 커뮤니티와 소통하기 위해 공식 웹사이트, GitHub 저장소 및 소셜 미디어 채널을 통해 공개적으로 존재합니다. [4]
Canonical3 프레임워크는 고도의 데이터 기반 자동화가 필요한 다양한 산업 분야에 적용할 수 있는 것으로 제시됩니다. 다음은 플랫폼 및 CanL3 형식에 대해 프로젝트에서 언급한 잠재적 사용 사례입니다.
Canonical3는 고품질의 표준 데이터 생성 및 유지를 중심으로 자립 가능한 경제를 만들기 위해 "토큰화된 인센티브 레이어"를 통합할 계획입니다. 백서는 이를 "선택적 인센티브 레이어"라고도 하며, 탈중앙화된 네트워크 운영을 용이하게 하기 위한 토큰이 계획될 수 있음을 시사하는 "거버넌스" 모델을 언급합니다. [1] [2]
프로젝트의 네이티브 토큰에 대한 제안된 유틸리티는 데이터 기여자에게 보상을 제공하는 데 중점을 둡니다.
Canonical3는 AI 시스템, 데이터 인프라, 응용 머신러닝 분야에서 경험이 풍부한 8명 이상의 엔지니어와 연구원으로 구성된 핵심 팀에 의해 구축되었습니다.
Lavrentin Arutyunyan은 프로젝트의 최고 데이터 과학자로 활동하고 있습니다. 그는 모스크바 주립대학교에서 수리 및 물리 과학 박사 학위를 받았습니다. 그의 배경은 응용 수학 및 대규모 데이터 시스템입니다. Canonical3에 합류하기 전에는 Yandex에서 AI 평가, 인간 피드백을 통한 강화 학습(RLHF) 데이터 세트, 프로덕션 분석을 담당하는 팀을 이끌었습니다. Canonical3에서는 데이터 품질, 정렬, 결정론적 평가에 대한 접근 방식을 주도하여 에이전트가 신뢰할 수 있고 검증 가능한 인텔리전스를 기반으로 작동하도록 보장합니다. [1]