Kimi는 베이징에 기반을 둔 스타트업 Moonshot AI가 개발한 일련의 대규모 언어 모델(LLM)입니다. 이 모델들은 긴 문맥 창과, 후속 버전에서는 개방형 가중치 아키텍처와 에이전트 인텔리전스 기능으로 유명하며, 이를 통해 복잡하고 다단계적인 작업을 수행할 수 있습니다.
원래 Kimi 챗봇은 Moonshot AI에 의해 2023년 10월에 출시되었습니다. 출시 당시 이를 차별화했던 주요 기능은 최대 20만자의 중국어 문자를 단일 프롬프트로 처리할 수 있는 긴 문맥 창이었습니다. 이 기능은 긴 문서와 복잡한 대화 처리에 중점을 둔 중국의 경쟁적인 AI 시장에서 강력한 경쟁력을 갖추게 했습니다. 이 모델의 긴 문맥 기능은 Moonshot AI의 전략의 핵심 부분이었으며, 2024년 초 회사의 기업 가치가 25억 달러에 달하는 데 기여했습니다. [6] [7]
Kimi K2는 2023년 3월에 설립된 Moonshot AI에 의해 2025년 7월 11일에 출시되었습니다. 에이전트 인텔리전스에 중점을 두고 설계된 개방형 가중치 전문가 혼합(MoE) 모델입니다. 이 출시는 AI 연구 커뮤니티에서 상당한 관심을 받았으며, 일부에서는 그 영향을 올해 초 DeepSeek의 모델 출시에 비교하기도 했습니다. [1] 이 모델은 코딩 및 추론 벤치마크에서의 성능으로 유명하며, 사고 능력이 없는 평가에서 Anthropic의 Claude와 같은 서구 경쟁사를 포함한 많은 최신 오픈소스 및 독점 모델과 동등하거나 능가합니다. [1] 머신러닝 연구원 Nathan Lambert는 출시 후 이를 "세계에서 가장 우수한 새로운 오픈 모델"이라고 설명했습니다. [1]
Kimi K2의 등장은 미-중 AI 경쟁의 더 넓은 맥락에서 볼 때, Moonshot AI를 OpenAI 및 Anthropic과 같은 서구 AI 연구소에 대한 중요한 중국 경쟁업체로 자리매김하게 합니다. 이 스타트업은 중국 기술 대기업 Alibaba를 포함한 투자자들의 지원을 받고 있다고 알려져 있습니다. [1]
Kimi K2의 핵심 설계 철학은 모델의 자율 에이전트로서의 기능을 우선시하는 "에이전트 인텔리전스"입니다. 단순히 프롬프트에 응답하는 대신, 사용자의 목표를 이해하고, 웹 브라우저, 코드 인터프리터 또는 API와 같은 적절한 도구를 선택하고, 목표를 달성하기 위한 일련의 작업을 실행하도록 설계되었습니다. 이러한 접근 방식은 단순한 챗봇 기반 상호 작용을 넘어 더 복잡한 문제 해결로 나아가는 것을 목표로 합니다. [2]
Moonshot AI는 서로 다른 사용 사례에 맞게 두 가지 주요 변형으로 모델을 출시했습니다. Kimi-K2-Base는 기본 모델이며, 사용자 정의 미세 조정을 위해 완벽한 제어가 필요한 연구원과 개발자를 위해 설계되었습니다. Kimi-K2-Instruct는 범용 채팅 및 바로 사용 가능한 에이전트 애플리케이션에 최적화된 사후 훈련 버전입니다. 모델 가중치와 관련 코드는 모두 수정된 MIT 라이선스에 따라 공개되어 오픈 리서치 및 개발을 장려합니다. [3]
Kimi K2는 전문가 혼합(MoE) 아키텍처를 기반으로 구축되어 각 추론에 대해 활성화된 매개변수의 수를 계산적으로 관리 가능하게 유지하면서 매우 많은 총 매개변수를 허용합니다. 이 설계는 효율성과 확장성을 향상시킵니다. 이 모델은 총 1조 개의 매개변수를 가지며, 토큰당 320억 개가 활성화됩니다. [4]
주요 아키텍처 사양은 다음과 같습니다.
이러한 사양은 프로젝트의 공식 기술 문서에 자세히 설명되어 있습니다. [3]
Kimi K2는 15.5조 토큰의 데이터 세트로 사전 훈련되었습니다. 개발 중 중요한 기술적 혁신은 MuonClip 최적화기의 생성이었습니다. 이 최적화기는 특히 "폭발하는 어텐션 로짓" 문제와 같이 대규모 모델을 확장할 때 발생하는 일반적인 문제인 훈련 불안정성을 해결하기 위해 개발되었습니다. [2]
MuonClip 최적화기는 각 업데이트 후 쿼리(q) 및 키(k) 투영의 가중치 행렬을 직접 다시 조정하는 "qk-clip"이라는 기술을 도입하여 Muon 최적화기를 기반으로 합니다. 어텐션 로짓의 크기를 원본에서 제어함으로써 MuonClip은 손실 스파이크를 효과적으로 방지하여 전체 15.5조 토큰 데이터 세트에 걸쳐 안정적인 사전 훈련 프로세스를 가능하게 했습니다. [4]
모델의 고급 에이전트 기능은 도구 사용 및 강화 학습에 중점을 둔 다단계 사후 훈련 프로세스를 통해 개발되었습니다.
모델이 도구를 효과적으로 사용하는 방법을 가르치기 위해 개발팀은 대규모 데이터 합성 파이프라인을 만들었습니다. ACEBench 프레임워크에서 영감을 받은 이 시스템은 수백 개의 도메인과 수천 개의 도구를 포함하는 복잡한 실제 시나리오를 시뮬레이션합니다. 이러한 시뮬레이션에서 AI 에이전트는 시뮬레이션된 환경 및 사용자 에이전트와 상호 작용하여 현실적인 다회전 도구 사용 데이터를 생성합니다. 그런 다음 LLM 기반 판단자는 사전 정의된 기준에 따라 이러한 상호 작용을 평가하여 고품질 예제를 필터링하고, 이를 훈련에 사용합니다. [2]