Canonical3
Canonical3는 인공 지능(AI)을 위한 범용 데이터 레이어를 개발하는 데이터 인프라 프로젝트입니다. 원시의 비정형 입력을 표준화되고 검증 가능하며 에이전트가 즉시 사용할 수 있는 형식으로 변환하여 데이터 파편화 및 신뢰성 문제를 해결하는 것을 목표로 합니다. [1] [2]
개요
Canonical3는 AI 시스템 배포의 중요한 병목 현상을 해결하기 위해 설계된 기본 데이터 레이어로 자리매김하고 있습니다. 이 프로젝트는 모델의 빠른 발전에도 불구하고 AI 에이전트가 일관성 없고 단편화된 데이터 소스에 의존하기 때문에 신뢰할 수 없거나 실패한 동작을 보이는 경우가 많다는 점을 지적합니다. 이 문제는 프로젝트의 백서에서 "Canonical Gap"이라고 부르는 것으로, 중요한 정보가 공통 구조나 형식 없이 분리된 문서, 로그 및 센서 피드에 분산되어 있기 때문에 발생합니다. [2]
Canonical3에서 제안하는 핵심 솔루션은 Canonical Layer라는 프레임워크입니다. 이 레이어는 관계형 데이터베이스의 데이터 정규화와 유사하게 작동하여 AI 에이전트 또는 모델에서 사용되기 전에 정보를 표준화하는 중간 역할을 합니다. 목표는 데이터에 대한 단일하고 정돈되고 신뢰할 수 있는 소스를 구축하여 AI 시스템이 더 높은 신뢰성, 결정성 및 감사 가능성으로 작동할 수 있도록 하는 것입니다. 이 프로젝트는 2025년 12월에 X(이전의 Twitter) 프로필을 생성하고 2025년 12월 12일에 버전 1.0 백서를 게시하면서 공개적으로 소개되었습니다. [3] [2]
2026년 초의 프로젝트 자료에 따르면 Canonical3는 초기 채택 및 견인력 지표를 보고했습니다. 여기에는 50테라바이트 이상의 엔터프라이즈 데이터가 활성 정규화를 거치고, 매일 2,500만 건 이상의 이벤트가 구조화된 객체로 정규화되고, 3,000건 이상의 중요한 절차가 계산 가능한 워크플로로 매핑되는 것이 포함되었습니다. 이 프로젝트는 8명 이상의 엔지니어와 연구원으로 구성된 핵심 팀에 의해 개발되고 있습니다. [1]
아키텍처
Canonical3의 아키텍처는 광범위한 AI 인프라 스택 내의 기본 레이어로 설계되었으며, 구조화된 데이터 객체를 생성하기 위한 상세한 데이터 처리 파이프라인을 포함합니다.
AI 인프라 스택
이 프로젝트는 AI 인프라를 위한 3계층 개념 모델에서 기본 계층 또는 "Layer 1"으로 자리매김합니다.
- Layer 1: 표준 계층 (Canonical3): 이 기본 계층은 다양한 소스에서 원시 데이터를 수집하고 정규화하여 구조화된 표준 객체로 만드는 역할을 합니다. 이는 전체 스택을 위한 신뢰할 수 있는 메모리 및 인텔리전스 기반으로 기능하도록 설계되었습니다.
- Layer 2: 인프라 (컴퓨팅 및 전송): 중간 계층은 표준 계층에서 제공하는 정규화된 데이터를 처리하고 이동하는 시스템으로 구성됩니다.
- Layer 3: 오케스트레이션 (에이전트 및 모델): 최상위 계층은 하위 계층의 구조화된 인텔리전스를 사용하여 작업을 수행하고 결정을 내리는 AI 에이전트 및 모델로 구성됩니다. [1]
데이터 처리 파이프라인
본 백서는 원시 입력을 정규 객체로 변환하는 다단계 파이프라인에 대해 자세히 설명합니다.
- 수집: 통합 로더는 문서(PDF, DOCX, HTML), 데이터 세트(CSV, 로그) 및 실시간 센서 스트림(GPS, IMU, 오디오, 비디오, IoT)을 포함한 광범위한 데이터 형식을 수집하고 추적성을 위해 소스 메타데이터를 첨부합니다.
- 분해: 원시 데이터는 기본 구성 요소로 분해됩니다. 텍스트 정보는 어설션, 규칙 및 절차로 구문 분석되고 센서 신호는 이벤트, 상태 및 환경적 특징을 식별하기 위해 분석됩니다.
- 정규화: 시스템은 데이터베이스 정규화 원칙을 의미론적 데이터에 적용합니다. 이 단계는 중복성을 제거하고, 원자성을 적용하고, 불일치를 해결하여 깨끗하고 논리적인 표현을 만드는 것을 목표로 합니다.
- 스키마 정렬: 분해되고 정규화된 데이터는 공식적인 도메인별 정규 스키마에 매핑됩니다. 이러한 스키마는 의료 절차, 금융 규정 준수 또는 로봇 공학과 같은 분야의 데이터에 대한 엄격한 구조를 제공합니다.
- 속성 유형 지정: 각 데이터 속성에는 특정 유형, 단위, 신뢰도 점수 및 출처 정보가 할당됩니다. 이는 데이터를 풍부하게 만들어 더욱 명시적이고 기계가 읽을 수 있도록 합니다.
- 객체 생성: 마지막으로, 완전히 처리된 데이터는 불변의 버전 관리된 정규 지식 객체(CKO) 및 정규 감각 객체(CSO)를 생성하는 데 사용되며, 이는 쿼리를 위해 인덱싱됩니다. [2]
아키텍처는 또한 정규 스키마 카탈로그와 결합된 벡터-그래프 하이브리드 인덱스를 통합합니다. 이 시스템은 의미론적 검색(개념적으로 유사한 정보를 찾기 위해)과 결정적이고 구조화된 쿼리(정의된 스키마를 기반으로 정확한 데이터를 검색하기 위해)를 모두 지원하도록 설계되었습니다. [2]
제품
Canonical3의 제품은 핵심 데이터 레이어, 생성하는 구조화된 데이터 객체, 특수 데이터 표기 언어 및 도구 세트를 중심으로 합니다.
Canonical Layer
주요 제품은 Canonical Layer 자체이며, 이는 원시 데이터 소스와 AI 애플리케이션 사이의 중개자 역할을 하는 기본 플랫폼입니다. 이는 다양한 입력을 공유되고 구조화된 형식으로 표준화하여 AI 에이전트가 소비하는 모든 데이터가 일관성, 신뢰성 및 추적 가능성을 갖도록 하는 것을 목표로 합니다. [1]
캐노니컬 객체
캐노니컬 레이어는 AI 에이전트가 예측하고 해석할 수 있도록 설계된 두 가지 주요 유형의 구조화된 데이터 기본 요소로 모든 처리된 정보를 나타냅니다.
Canonical Knowledge Objects (CKO)
CKO(Canonical Knowledge Objects)는 문서, 정책, 절차 매뉴얼과 같은 소스에서 추출된 정적 지식을 나타냅니다. 규칙, 규정 및 운영 지침을 명확하고 버전 관리되며 기계가 읽을 수 있는 형식으로 캡처하도록 설계되었습니다. 이를 통해 AI 에이전트는 비정형 텍스트를 해석하는 대신 안정적이고 명시적인 규칙 세트를 기반으로 추론할 수 있습니다. [1]
Canonical Sensory Objects (CSO)
CSO는 이벤트 스트림 및 환경 센서에서 파생된 동적 실제 데이터를 나타냅니다. 이러한 객체는 GPS, IMU(관성 측정 장치) 및 기타 센서 피드와 같은 소스의 입력을 정규화합니다. 이 프로세스는 일관된 단위, 타이밍 및 의미 체계를 보장하여 AI 시스템을 위한 실제 이벤트에 대한 표준화되고 통합된 뷰를 생성합니다. [1]
CanL3 표기법 언어
Canonical3는 CanL3라는 오픈 소스 데이터 형식 및 플랫폼을 제공합니다. CanL3는 Canonical3 Notation Language의 약자입니다. CanL3는 사람이 읽을 수 있는 텍스트 기반 형식으로, 특히 대규모 언어 모델(LLM) 토큰 사용량을 최적화하기 위해 JSON보다 더 작고 효율적인 대안으로 자리매김하고 있습니다. 성능 벤치마크에 따르면 이 형식은 바이트 크기 기준으로 JSON보다 최대 36% 더 작고 특정 모델에서 45% 더 적은 토큰을 사용합니다. [4]
CanL3 플랫폼에는 다음과 같은 여러 구성 요소가 포함되어 있습니다.
- 개발자 도구: 이 프로젝트는 데이터 탐색을 위한 대화형 명령줄 인터페이스(CLI), 구문 강조를 위한 VS Code 확장 프로그램, 직렬화, 쿼리 및 데이터 수정을 위한 TypeScript 우선 API를 포함한 도구 모음을 제공합니다.
- CanL3 스키마 언어(TSL): CanL3에는
.schema.CanL3파일에서 사용되는 자체 스키마 정의 언어인 TSL이 포함되어 있습니다. TSL을 사용하면 데이터 유형을 정의하고required,pattern(정규식),unique및min/max값 또는 길이와 같은 13가지 유효성 검사 제약 조건을 적용할 수 있습니다. [4]
기능
Canonical3 프레임워크와 관련 CanL3 툴셋은 신뢰성 있는 AI 시스템 구축을 위한 다양한 기능을 제공하도록 설계되었습니다.
플랫폼 기능
핵심 데이터 레이어는 다음과 같은 시스템적 품질을 가능하게 하는 것을 목표로 합니다.
- 데이터 정규화: 시스템은 이기종 데이터 유형을 수집하고 표준화하여 공유 형식으로 변환하여 단일 정보 소스를 생성합니다.
- 신뢰할 수 있는 에이전트 동작: AI 시스템에 일관되고 통합된 데이터 소스를 제공함으로써 플랫폼은 상충되는 해석을 방지하고 보다 예측 가능한 에이전트 동작을 보장하는 것을 목표로 합니다.
- 결정론적 워크플로우: 단일하고 신뢰할 수 있는 데이터 상태를 사용하면 에이전트의 작업과 결정이 구조화된 입력을 기반으로 명확하고 예측 가능한 규칙을 따를 수 있습니다.
- 설계에 의한 감사 가능성: 내장된 버전 관리 및 데이터 계보를 통해 모든 결과를 특정 소스 데이터 및 사용된 버전으로 추적할 수 있으므로 모든 AI 작업을 완벽하게 감사할 수 있습니다.
- 구성 가능성: 공유 데이터 기반은 여러 개의 개별 AI 에이전트가 동일한 검증된 정보를 조정하고 작동할 수 있도록 설계되어 보다 복잡하고 상호 운용 가능한 시스템을 만들 수 있습니다. [1]
CanL3 기술적 특징
CanL3 표기 언어 및 도구는 데이터 처리에 있어 다음과 같은 기술적 이점을 제공합니다.
- 직렬화: 이 형식은 효율성을 위해 설계되었으며 바이트 및 토큰 모두에서 JSON보다 32-45% 더 작은 크기를 목표로 합니다. 사람이 읽을 수 있으며 JSON과의 왕복 안전 변환을 제공합니다.
- 쿼리 및 탐색: 이 플랫폼은 JSONPath와 유사한 쿼리, 필터 표현식, 와일드카드 및 트리 순회를 지원합니다. LRU(Least Recently Used) 캐시가 포함되어 반복적인 쿼리 속도를 높입니다.
- 데이터 수정: CRUD(생성, 읽기, 업데이트, 삭제) 작업,
merge및update와 같은 대량 작업,diff함수를 통한 변경 사항 추적을 위한 API 세트를 사용할 수 있습니다. - 인덱싱 및 성능: CanL3는 빠른 조회를 위해 해시, BTree 및 복합 인덱스를 지원하며 낮은 메모리 사용량으로 대용량 파일의 스트림 처리에 최적화되어 있습니다.
- 고급 최적화: 이 플랫폼은 딕셔너리 인코딩, 델타 인코딩, 런렝스 인코딩, 비트 패킹 및 숫자 양자화를 포함한 수많은 압축 및 최적화 기술을 통합합니다. 또한 LLM을 위한 토크나이저 인식 최적화 전략을 제공합니다.
- 스키마 및 유효성 검사: CanL3는 TSL에 정의된 스키마에 대한 런타임 데이터 유효성 검사를 지원하며 엄격 모드 적용 및 스키마에서 TypeScript 유형 자동 생성 옵션을 제공합니다. [4]
생태계
2026년 초 현재, Canonical3 생태계는 개발 초기 단계에 있으며, 통합 및 개발자 커뮤니티 참여에 중점을 두고 있습니다. 이 프로젝트는 10개 이상의 에이전트 프레임워크 및 다양한 "핵심 시스템"과의 라이브 통합을 보고하지만, 이러한 프레임워크 및 시스템의 구체적인 이름은 공개되지 않았습니다. [2]
생태계의 핵심 부분은 오픈 소스 CanL3 구성 요소입니다. 표기법 언어, 파서 및 개발자 도구에 대한 소스 코드는 MIT 라이선스 하에 GitHub에서 사용할 수 있으므로 개발자는 형식을 사용하여 빌드하고 기여할 수 있습니다. 이 프로젝트는 개발자 커뮤니티와 소통하기 위해 공식 웹사이트, GitHub 저장소 및 소셜 미디어 채널을 통해 공개적으로 존재합니다. [4]
사용 사례
Canonical3 프레임워크는 고도의 데이터 기반 자동화가 필요한 다양한 산업 분야에 적용할 수 있는 것으로 제시됩니다. 다음은 플랫폼 및 CanL3 형식에 대해 프로젝트에서 언급한 잠재적 사용 사례입니다.
- 의료 분류: AI 에이전트의 일관된 임상 평가를 위해 환자 병력 문서, 검사 결과 및 실시간 모니터링 데이터를 정규화합니다.
- 로봇 공학: SLAM(동시 위치 추정 및 지도 작성), IMU 및 카메라와 같은 여러 센서의 데이터를 표준화하고 병합하여 자율 탐색을 위한 통합 세계 모델을 만듭니다.
- 규정 준수 및 금융: 문서화된 정책 및 복잡한 규제 규칙에 대한 조치 검증을 자동화하기 위해 이를 계산 가능한 CKO 워크플로로 변환합니다.
- 공급망 관리: 다양한 파트너 및 시스템의 물류 명세서, 배송 업데이트 및 재고 데이터를 단일하고 일관된 보기로 통합하고 조정합니다.
- 엔터프라이즈 AI: 내부 챗봇 및 에이전트가 쿼리할 수 있는 신뢰할 수 있는 "엔터프라이즈 두뇌"를 만들기 위해 내부 지식 기반, 문서 및 로그를 벡터화하고 구조화합니다.
- 공간 운영: 농업, 국방 및 환경 모니터링 애플리케이션을 위해 위성, 드론 및 기타 지리 공간 센서의 원격 측정 데이터를 병합하고 정규화합니다.
- LLM 프롬프트 엔지니어링: 토큰 비용 및 API 비용을 줄이기 위해 컴팩트한 CanL3 형식을 사용하여 대규모 언어 모델에 구조화된 데이터를 제공합니다.
- 데이터 엔지니어링: 데이터 파이프라인에서 대규모 데이터 세트에 대한 스트림 처리를 용이하게 하고 구조화된 로그 집계를 위한 형식을 사용하여 쿼리 및 분석을 단순화합니다. [1] [4]
토큰 경제학
Canonical3는 고품질의 표준 데이터 생성 및 유지를 중심으로 자립 가능한 경제를 만들기 위해 "토큰화된 인센티브 레이어"를 통합할 계획입니다. 백서는 이를 "선택적 인센티브 레이어"라고도 하며, 탈중앙화된 네트워크 운영을 용이하게 하기 위한 토큰이 계획될 수 있음을 시사하는 "거버넌스" 모델을 언급합니다. [1] [2]
토큰 유틸리티
프로젝트의 네이티브 토큰에 대한 제안된 유틸리티는 데이터 기여자에게 보상을 제공하는 데 중점을 둡니다.
- 창작자 보상: 네트워크에 귀중한 표준 데이터 세트를 생성하고 기여하는 개인 및 조직에 지속적인 보상 흐름을 제공합니다.
- 쿼리 기반 수익: 표준 데이터가 쿼리될 때마다 데이터 소유자에게 토큰 기반 수익을 생성하여 유용한 정보의 큐레이션 및 유지 관리를 장려합니다. [1]
할당 및 거버넌스
- 2026년 초 현재, 프로젝트 토큰의 이름, 티커, 총 공급량, 할당 모델 및 거버넌스 구조를 포함한 구체적인 세부 사항은 사용 가능한 자료에 명시되어 있지 않습니다. [1] [2]
확인된 파트너십
- 프로젝트는 "핵심 시스템 전반에 걸쳐 실시간 통합"을 제공한다고 명시되어 있지만, 2026년 초 현재 제공된 문서에서 특정 기업 파트너 또는 프로젝트 협업이 공식적으로 언급되지 않았습니다. [1] [2]
주요 인물
Canonical3는 AI 시스템, 데이터 인프라, 응용 머신러닝 분야에서 경험이 풍부한 8명 이상의 엔지니어와 연구원으로 구성된 핵심 팀에 의해 구축되었습니다.
Lavrentin Arutyunyan은 프로젝트의 최고 데이터 과학자로 활동하고 있습니다. 그는 모스크바 주립대학교에서 수리 및 물리 과학 박사 학위를 받았습니다. 그의 배경은 응용 수학 및 대규모 데이터 시스템입니다. Canonical3에 합류하기 전에는 Yandex에서 AI 평가, 인간 피드백을 통한 강화 학습(RLHF) 데이터 세트, 프로덕션 분석을 담당하는 팀을 이끌었습니다. Canonical3에서는 데이터 품질, 정렬, 결정론적 평가에 대한 접근 방식을 주도하여 에이전트가 신뢰할 수 있고 검증 가능한 인텔리전스를 기반으로 작동하도록 보장합니다. [1]