安东·巴赫金 (Anton Bakhtin) 是 Anthropic 技术团队的成员,也是一位人工智能研究员,因其在多智能体强化学习、战略推理和大型语言模型方面的贡献而闻名。他曾在多家大型科技公司担任研究和工程职位,包括 Yandex、Google、Meta 和 Anthropic。他最近加入了 Meta 超智能团队。
安东·巴赫金在俄罗斯接受高等教育,于 2006 年至 2011 年就读于莫斯科国立大学并获得硕士学位。之后,他继续在 Yandex 数据分析学院接受专业培训,该学院以其严谨的计算机科学和机器学习课程而闻名。他于 2012 年至 2014 年间从该机构完成了硕士学位,专注于与他后来在软件开发和人工智能研究方面的职业相关的领域。[1] [4]
巴赫金于 2012 年在俄罗斯科技公司 Yandex 开始了他的职业生涯,担任软件开发人员。他于 2014 年晋升为高级软件开发人员,并在该公司工作到 2015 年。在 Yandex 工作之后,他搬到美国并加入 Google 担任高级软件工程师,他从 2015 年到 2017 年担任该职位。
2017 年,巴赫金转型为以研究为中心的职位,加入 Facebook(现在的 Meta),担任 Facebook 人工智能研究 (FAIR) 实验室的研究工程师。他在 Meta 工作了大约六年,直到 2023 年,在那里他是多智能体系统重要项目的关键贡献者,最著名的是 CICERO 项目。离开 Meta 后,他于 2023 年加入人工智能安全和研究公司 Anthropic,担任技术人员。在 Anthropic,他参与了 Claude 3 系列人工智能模型的开发。
2025 年 7 月,据报道,巴赫金是 Meta 为一个专注于构建“超智能”的新部门而进行的大规模人才收购浪潮的一部分。此举使他与其他从苹果和 OpenAI 等竞争对手那里聘请的杰出研究人员并肩作战,这表明主要科技公司正在加紧努力,以确保在通用人工智能领域的领先专家。[3] [1] [2] [4]
在 Meta AI 任职期间,巴赫金是 CICERO 开发的核心人物,CICERO 是第一个在复杂的策略游戏《外交》中达到人类水平表现的人工智能代理。该项目是人工智能领域的一个重要里程碑,因为《外交》需要的不仅仅是在围棋或星际争霸等游戏中掌握的纯粹对抗逻辑。该游戏涉及七名玩家,他们必须进行谈判、结成联盟、协调行动,有时还会互相背叛才能成功,这使得自然语言交流和建立信任成为游戏玩法的基本组成部分。
巴赫金指出,在其他游戏中取得成功的传统自博弈强化学习技术不足以用于《外交》,因为合作和协调在这种复杂的社会环境中不会自然而然地出现。包括合作者 Noam Brown 在内的研究团队通过开发混合人工智能架构解决了这个问题。CICERO 集成了一个大型语言模型(在大量人类游戏文本语料库上训练)和一个战略推理引擎。这使得人工智能可以与人类玩家进行自然语言对话,以协商计划和建立信任,同时使用其规划算法来预测其他玩家的行动并确定自己的最佳策略。
该研究最终于 2022 年底在《科学》杂志上发表。在一个匿名的在线联赛中,CICERO 与人类对手对战,得分是人类玩家平均得分的两倍多,在参加超过一场比赛的参与者中排名前 10%。巴赫金将该项目描述为创建可以充当合作伙伴的人工智能的一步,该人工智能能够理解人类意图、推理协作解决方案并有效地进行沟通。[2] [4]
在 Anthropic,巴赫金是开发 Claude 3 系列人工智能模型的团队成员,该模型于 2024 年 3 月发布。这套模型,包括 Claude 3 Opus、Sonnet 和 Haiku,旨在为推理、多语言理解、视觉和其他关键人工智能能力设定新的行业基准。在模型发布后,巴赫金评论了他的经验,他说:“强化学习永远不会奏效,直到它奏效为止:) 成为冒险的一部分真是太棒了。”他在 Anthropic 的工作为大型语言模型的开发做出了贡献,这些模型以其性能和改进的用户交互而闻名。[2] [4]