**안톤 바흐틴(Anton Bakhtin)**은 Anthropic의 기술 팀의 일원이자, 다중 에이전트 강화 학습, 전략적 추론, 대규모 언어 모델에 대한 기여로 인정받는 인공지능 연구원입니다. 그는 Yandex, Google, Meta, Anthropic을 포함한 여러 주요 기술 회사에서 연구 및 엔지니어링 직책을 맡았습니다. 최근에는 Meta Superintelligence 팀에 합류했습니다.
안톤 바흐틴은 러시아에서 고등 교육을 받았으며, 2006년부터 2011년까지 모스크바 주립대학교에서 석사 학위를 받았습니다. 이후 컴퓨터 과학 및 머신 러닝 분야의 엄격한 커리큘럼으로 유명한 Yandex 데이터 분석 학교에서 전문 교육을 계속했습니다. 그는 2012년에서 2014년 사이에 이 기관에서 석사 학위를 취득했으며, 소프트웨어 개발 및 AI 연구 분야에서 그의 후속 경력과 관련된 분야에 집중했습니다. [1] [4]
바흐틴은 2012년 러시아 기술 회사 Yandex에서 소프트웨어 개발자로 전문 경력을 시작했습니다. 그는 2014년에 선임 소프트웨어 개발자로 승진하여 2015년까지 회사에 근무했습니다. Yandex에서 근무한 후 미국으로 이주하여 2015년부터 2017년까지 Google에서 선임 소프트웨어 엔지니어로 근무했습니다.
2017년 바흐틴은 연구 중심 역할로 전환하여 Facebook (현재 Meta)의 Facebook AI Research (FAIR) 연구소에 연구 엔지니어로 합류했습니다. 그는 2023년까지 약 6년 동안 Meta에서 근무했으며, 다중 에이전트 시스템, 특히 CICERO 프로젝트에서 중요한 기여를 했습니다. Meta를 떠난 후 2023년 AI 안전 및 연구 회사인 Anthropic에 기술 스태프 멤버로 합류했습니다. Anthropic에서 그는 Claude 3 AI 모델 제품군 개발에 참여했습니다.
2025년 7월, 바흐틴이 "초지능" 구축에 초점을 맞춘 새로운 부서를 위해 Meta가 영입한 고위 인재 물결의 일부라는 보고가 있었습니다. 이 움직임은 그를 Apple 및 OpenAI와 같은 경쟁사에서 고용된 다른 저명한 연구원들과 함께 배치하여 주요 기술 회사가 인공 일반 지능 분야의 선도적인 전문가를 확보하기 위한 노력을 강화하고 있음을 시사합니다. [3] [1] [2] [4]
Meta AI에서 근무하는 동안 바흐틴은 복잡한 전략 게임인 Diplomacy에서 인간 수준의 성능을 달성한 최초의 인공지능 에이전트인 CICERO 개발의 중심 인물이었습니다. Diplomacy는 Go 또는 StarCraft와 같은 게임에서 숙달된 순수한 적대적 논리 이상의 기능을 요구하기 때문에 이 프로젝트는 AI의 중요한 이정표였습니다. 이 게임에는 성공하기 위해 협상하고, 동맹을 맺고, 행동을 조정하고, 때로는 서로 배신해야 하는 7명의 플레이어가 참여하며, 자연어 커뮤니케이션과 신뢰 구축이 게임 플레이의 필수 구성 요소가 됩니다.
바흐틴은 다른 게임에서 성공한 기존의 자체 플레이 강화 학습 기술이 Diplomacy에는 충분하지 않다고 지적했습니다. 왜냐하면 협력과 조정은 그러한 복잡한 사회 환경에서 자연스럽게 나타나지 않기 때문입니다. Noam Brown을 포함한 연구팀은 하이브리드 AI 아키텍처를 개발하여 이 문제를 해결했습니다. CICERO는 광범위한 인간 게임 플레이 텍스트 코퍼스로 훈련된 대규모 언어 모델을 전략적 추론 엔진과 통합했습니다. 이를 통해 AI는 인간 플레이어와 자연어 대화를 통해 계획을 협상하고 신뢰를 구축하는 동시에 계획 알고리즘을 사용하여 다른 플레이어의 움직임을 예측하고 자체 최적 전략을 결정할 수 있습니다.
이 연구는 2022년 말 저널 Science에 발표된 논문으로 절정에 달했습니다. 익명의 온라인 리그에서 CICERO는 인간 상대와 대결하여 인간 플레이어의 평균 점수의 두 배 이상을 획득하여 한 게임 이상을 플레이한 참가자의 상위 10%에 랭크되었습니다. 바흐틴은 이 프로젝트를 인간의 의도를 이해하고, 협력적인 솔루션에 대해 추론하고, 효과적으로 의사 소통할 수 있는 협력 파트너 역할을 할 수 있는 AI를 만드는 단계라고 설명했습니다. [2] [4]
Anthropic에서 바흐틴은 2024년 3월에 출시된 Claude 3 AI 모델 제품군을 개발한 팀의 일원이었습니다. Claude 3 Opus, Sonnet 및 Haiku를 포함한 이 모델 제품군은 추론, 다국어 이해, 비전 및 기타 주요 AI 기능에서 새로운 산업 벤치마크를 설정하도록 설계되었습니다. 모델 출시 후 바흐틴은 자신의 경험에 대해 "RL은 작동할 때까지 절대 작동하지 않습니다 :) 모험의 일부가 된 것은 놀라웠습니다."라고 말했습니다. Anthropic에서의 그의 작업은 성능과 향상된 사용자 상호 작용으로 유명한 대규모 언어 모델 개발에 기여했습니다. [2] [4]