Anton Bakhtin 是 Anthropic 技术团队的成员,也是一位人工智能研究员,因其在多智能体强化学习、战略推理和大型语言模型方面的贡献而闻名。他曾在多家大型科技公司担任研究和工程职位,包括 Yandex、Google、Meta 和 Anthropic。他最近加入了 Meta 超智能团队。
Anton Bakhtin 在俄罗斯接受高等教育,于 2006 年至 2011 年就读于莫斯科国立大学,并获得硕士学位。之后,他继续在 Yandex 数据分析学院接受专业培训,该学院以其在计算机科学和机器学习方面的严谨课程而闻名。他在 2012 年至 2014 年间完成了该机构的硕士学位,专注于与他后来在软件开发和人工智能研究方面的职业相关的领域。 [1] [4]
Bakhtin 于 2012 年在俄罗斯科技公司 Yandex 开始了他的职业生涯,担任软件开发人员。他于 2014 年晋升为高级软件开发人员,并在该公司工作到 2015 年。在 Yandex 工作之后,他搬到美国,并于 2015 年至 2017 年加入 Google 担任高级软件工程师。
2017 年,Bakhtin 转到一个以研究为中心的职位,加入 Facebook(现在的 Meta),在 Facebook 人工智能研究 (FAIR) 实验室担任研究工程师。他在 Meta 工作了大约六年,直到 2023 年,在那里他是多智能体系统重要项目的关键贡献者,最著名的是 CICERO 项目。离开 Meta 后,他于 2023 年加入人工智能安全和研究公司 Anthropic,担任技术人员。在 Anthropic,他参与了 Claude 3 系列人工智能模型的开发。
2025 年 7 月,据报道,Bakhtin 是 Meta 为一个专注于构建“超智能”的新部门而进行的大规模人才收购浪潮的一部分。此举使他与其他从苹果和 OpenAI 等竞争对手那里聘请的杰出研究人员并肩作战,这表明主要科技公司正在加大力度,以确保在通用人工智能领域领先的专家。 [3] [1] [2] [4]
在 Meta AI 任职期间,Bakhtin 是 CICERO 开发的核心人物,CICERO 是第一个在复杂的策略游戏《外交》中达到人类水平表现的人工智能代理。该项目是人工智能领域的一个重要里程碑,因为《外交》需要的不仅仅是在围棋或星际争霸等游戏中掌握的纯粹对抗逻辑。该游戏涉及七名玩家,他们必须进行谈判、结成联盟、协调行动,有时甚至互相背叛才能成功,这使得自然语言交流和建立信任成为游戏玩法的重要组成部分。
Bakhtin 指出,在其他游戏中成功的传统自博弈强化学习技术不足以用于《外交》,因为合作和协调在这种复杂的社会环境中不会自然而然地出现。研究团队(包括合作者 Noam Brown)通过开发混合人工智能架构解决了这个问题。CICERO 集成了一个大型语言模型(该模型在大量人类游戏文本语料库上进行训练)和一个战略推理引擎。这使得人工智能可以与人类玩家进行自然语言对话,以协商计划和建立信任,同时使用其规划算法来预测其他玩家的行动并确定自己的最佳策略。
该研究最终于 2022 年底在《科学》杂志上发表。在一个匿名的在线联赛中,CICERO 与人类对手对战,得分是人类玩家平均得分的两倍多,在玩过一场以上游戏的参与者中排名前 10%。Bakhtin 将该项目描述为朝着创建可以充当合作伙伴的人工智能迈出的一步,该人工智能能够理解人类意图、推理协作解决方案并有效地进行沟通。 [2] [4]
在 Anthropic,Bakhtin 是开发 Claude 3 系列人工智能模型的团队成员,该模型于 2024 年 3 月发布。这套模型包括 Claude 3 Opus、Sonnet 和 Haiku,旨在为推理、多语言理解、视觉和其他关键人工智能能力树立新的行业基准。在模型发布后,Bakhtin 评论了他的经验,他说:“强化学习永远不会奏效,直到它奏效为止 :) 成为冒险的一部分真是太棒了。”他在 Anthropic 的工作为大型语言模型的开发做出了贡献,这些模型因其性能和改进的用户交互而备受关注。 [2] [4]