**안톤 바흐틴(Anton Bakhtin)**은 Anthropic의 기술팀 멤버이자 다중 에이전트 강화 학습, 전략적 추론 및 대규모 언어 모델에 대한 공헌으로 인정받는 인공 지능 연구원입니다. 그는 Yandex, Google, Meta, Anthropic을 포함한 여러 주요 기술 회사에서 연구 및 엔지니어링 직책을 역임했습니다. 그는 최근 메타 초지능 팀에 합류했습니다.
안톤 바흐틴(Anton Bakhtin)은 러시아에서 고등 교육을 받았으며 2006년부터 2011년까지 모스크바 주립대학교에서 석사 학위를 받았습니다. 이후 그는 컴퓨터 과학 및 기계 학습 분야의 엄격한 커리큘럼으로 유명한 Yandex 데이터 분석 학교에서 전문 교육을 이어갔습니다. 그는 2012년부터 2014년까지 이 기관에서 소프트웨어 개발 및 AI 연구 분야와 관련된 분야에 중점을 두고 석사 학위를 받았습니다. [1] [4]
바흐틴(Bakhtin)은 2012년 러시아 기술 회사 Yandex에서 소프트웨어 개발자로 그의 직업 경력을 시작했습니다. 그는 2014년에 수석 소프트웨어 개발자로 승진했고 2015년까지 회사에 남았습니다. Yandex에서 근무한 후 그는 미국으로 이주하여 Google에 수석 소프트웨어 엔지니어로 합류하여 2015년부터 2017년까지 그 역할을 수행했습니다.
2017년 바흐틴(Bakhtin)은 Facebook AI Research (FAIR) 연구소에서 연구 엔지니어로 Facebook(현재 Meta)에 합류하여 연구 중심적인 역할로 전환했습니다. 그는 2023년까지 약 6년 동안 Meta에서 근무했으며, 다중 에이전트 시스템, 특히 CICERO 프로젝트에서 중요한 기여를 했습니다. Meta를 떠난 후 그는 2023년 AI 안전 및 연구 회사인 Anthropic에 기술 직원으로 합류했습니다. Anthropic에서 그는 Claude 3 계열의 AI 모델 개발에 참여했습니다.
2025년 7월, 바흐틴(Bakhtin)이 "초지능" 구축에 중점을 둔 새로운 부서를 위해 메타가 고위 인재를 대거 영입하는 과정에서 일부였다고 보도되었습니다. 이러한 행보는 Apple 및 OpenAI와 같은 경쟁사에서 고용된 다른 저명한 연구원들과 함께 그를 배치하여 주요 기술 회사들이 인공 일반 지능 분야의 선도적인 전문가를 확보하기 위한 노력을 강화하고 있음을 시사합니다. [3] [1] [2] [4]
Meta AI 재직 기간 동안 바흐틴(Bakhtin)은 복잡한 전략 게임 Diplomacy에서 인간 수준의 성능을 달성한 최초의 인공 지능 에이전트인 CICERO 개발의 중심 인물이었습니다. 이 프로젝트는 Diplomacy가 바둑이나 스타크래프트와 같은 게임에서 숙달된 순전히 적대적인 논리 이상의 능력을 필요로 하기 때문에 AI에서 중요한 이정표였습니다. 이 게임은 성공하기 위해 협상하고, 동맹을 맺고, 행동을 조정하고, 때로는 서로 배신해야 하는 7명의 플레이어가 참여하며, 자연어 의사소통과 신뢰 구축이 게임 플레이의 필수적인 요소입니다.
바흐틴(Bakhtin)은 다른 게임에서 성공적인 기존의 자가 플레이 강화 학습 기술은 협력과 조정이 그러한 복잡한 사회적 환경에서 자연스럽게 나타나지 않기 때문에 Diplomacy에는 불충분하다고 언급했습니다. 공동 연구자인 Noam Brown을 포함한 연구팀은 하이브리드 AI 아키텍처를 개발하여 이 문제를 해결했습니다. CICERO는 방대한 인간 게임 플레이 텍스트 코퍼스에서 훈련된 대규모 언어 모델을 전략적 추론 엔진과 통합했습니다. 이를 통해 AI는 인간 플레이어와 자연어 대화를 통해 계획을 협상하고 신뢰를 구축하는 동시에 계획 알고리즘을 사용하여 다른 플레이어의 움직임을 예측하고 자신의 최적 전략을 결정할 수 있었습니다.
이 연구는 2022년 말 Science 저널에 발표된 논문으로 결론지어졌습니다. 익명의 온라인 리그에서 CICERO는 인간 상대와 경쟁하여 인간 플레이어의 평균 점수보다 두 배 이상 높은 점수를 얻었으며, 한 게임 이상을 플레이한 참가자 중 상위 10%에 들었습니다. 바흐틴(Bakhtin)은 이 프로젝트를 인간의 의도를 이해하고, 협력적인 해결책에 대해 추론하고, 효과적으로 의사소통할 수 있는 협력적인 파트너 역할을 할 수 있는 AI를 만드는 방향으로 한 걸음으로 설명했습니다. [2] [4]
Anthropic에서 바흐틴(Bakhtin)은 2024년 3월에 출시된 Claude 3 계열의 AI 모델을 개발한 팀의 일원이었습니다. Claude 3 Opus, Sonnet, Haiku를 포함한 이 모델 제품군은 추론, 다국어 이해, 비전 및 기타 주요 AI 기능에서 새로운 업계 기준을 설정하도록 설계되었습니다. 모델 출시 후 바흐틴(Bakhtin)은 자신의 경험에 대해 "RL은 작동하지 않습니다. 작동할 때까지 :) 그것은 놀라운 모험의 일부였습니다."라고 말했습니다. Anthropic에서 그의 작업은 성능과 향상된 사용자 상호 작용으로 주목받은 대규모 언어 모델 개발에 기여했습니다. [2] [4]