Łukasz Kaiser 是数据处理公司 Pathway 的联合创始人。他的职业生涯包括在 Google Brain 和 OpenAI 担任高级研究职位。他是 2017 年论文“Attention Is All You Need”的主要合著者,该论文介绍了 Transformer 深度学习架构,该架构是当今大多数大型语言模型的基础。 [1] [2]
Kaiser 在波兰弗罗茨瓦夫大学获得了计算机科学和数学双硕士学位,分别于 2004 年和 2001 年完成。 [3] [4] 然后,他在德国亚琛工业大学攻读博士学位,并于 2008 年获得计算机科学博士学位。 [5] [6] 他的论文题为 自动结构上的逻辑和博弈,重点研究算法模型理论。 [7] [3] 后来,他于 2013 年在巴黎狄德罗大学获得了计算机科学特许任教资格 (HDR),论文题为“非排序数据的逻辑和自动机”。 [8]
Kaiser 的职业生涯始于学术界,专注于理论计算机科学、逻辑和自动机理论。 [9] 完成博士学位后,他曾在亚琛工业大学和 LIAFA(隶属于巴黎狄德罗大学的实验室)担任博士后研究员。 [2] 2010 年底,他成为法国国家科学研究中心 (CNRS) 的 chargé de recherche(终身研究科学家),常驻巴黎狄德罗大学。 [6] [7] 2013 年,Kaiser 从学术界转型到工业界,加入位于加利福尼亚州山景城的 Google Brain 团队,从事深度学习工作。 [7] 后来,他评论了这一转变,指出与理论计算机科学相比,深度学习的变化速度很快。 [7]
在 Google Brain 近八年的任期内(从 2013 年 8 月到 2021 年 4 月),Kaiser 晋升为 Staff Research Scientist,并成为该公司几个最重要的人工智能项目的关键贡献者。 [1] 他在 TensorFlow(Google 的开源机器学习框架)的开发中发挥了关键作用。 [6] 他在注意力机制方面的工作是 Google 神经机器翻译 (GNMT) 系统的核心组成部分,该系统为 Google 翻译提供支持。 [6]
2017 年,他与人合著了论文“Attention Is All You Need”,该论文介绍了 Transformer 架构。同年,他共同创建并领导了 Tensor2Tensor (T2T) 的开发,这是一个开源库,旨在使深度学习研究更易于访问,其中包括 Transformer 模型的参考实现。 [1] 他还与人合著了 Reformer 模型,这是 Transformer 的一种高效变体,旨在以更少的内存使用量处理长序列。 [4]
Kaiser 于 2021 年 4 月加入 OpenAI 担任研究员。 [1] 在 OpenAI,他为 GPT-4 和 Codex 等模型的开发做出了贡献。 [5] 后来,他担任 OpenAI o1 模型系列的研究负责人,该系列于 2024 年 9 月推出。 [10]
在从事研究工作的同时,Kaiser 于 2020 年 1 月共同创立了技术公司 Pathway,并在该公司担任首席科学家。 [1] Pathway 开发了一个反应式数据处理框架,该框架通过统一流和批处理数据处理来实现实时机器学习应用程序。该公司的目标是允许人工智能系统随着新数据的到来自动更新,从而促进需要对实时数据进行低延迟响应的应用程序。 [11]
Kaiser 是 2017 年论文“Attention Is All You Need”的八位合著者之一,该论文介绍了 Transformer。这种模型架构通过放弃循环 (RNN) 和卷积 (CNN) 层,完全依赖于自注意力机制,标志着序列处理的重大转变。 [2] 自注意力允许模型权衡输入序列中不同单词的重要性,以更好地理解上下文。这种设计实现了训练期间更大的并行化,使其对于用于训练大型语言模型的海量数据集非常有效。从那时起,Transformer 已成为大多数最先进的 NLP 模型(包括 BERT 和 GPT 系列)的基础架构。 [1]
该论文的其他合著者是 Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez 和 Illia Polosukhin。 [10]
在 Google 工作期间,Kaiser 是 TensorFlow 框架的主要作者和核心贡献者,该框架已成为构建和部署机器学习模型的标准工具。 [8] [6] 为了加速研究并提高可访问性,他领导创建了 Tensor2Tensor (T2T),这是一个深度学习模型和数据集的开源库。 [2] T2T 旨在使研究人员更容易针对最先进的模型测试新想法,并作为 Transformer 模型代码的初始公共存储库,从而促进了它的快速采用。 [8]
在 OpenAI,Kaiser 是 o1 模型系列的研究负责人,他在 2024 年 9 月推出时将其描述为人工智能的“新范式”。 [10] 据他说,这些模型旨在利用“隐藏的 CoT”(思维链),这是一种内部推理过程,使它们能够花费更多的计算精力来思考,然后再提供响应。他表示,与以前的架构相比,这种方法使模型能够从更少的数据中学习,更好地泛化,并进行某种形式的近似推理。 [10] 2024 年 12 月,他评论了 o3 模型的早期评估版本,指出其在推理基准测试中的高级功能。 [10]
Kaiser 因其博士论文获得了 2009 年 E.W. Beth 论文奖,该奖项颁发给逻辑、语言和信息领域杰出的论文。 [6] [7]
2024 年 10 月,Kaiser 和他的七位“Attention Is All You Need”合著者因其对 Transformer 模型开发的贡献而被授予 2024 年 NEC C&C 奖。 [10]
截至 2025 年底,根据他的 Google Scholar 个人资料,Kaiser 的作品已被引用超过 425,000 次。“Attention Is All You Need”论文是现代计算机科学中被引用次数最多的论文之一,被引用超过 100,000 次。 [2]
Kaiser 是人工智能会议上的一位活跃演讲者,并分享了他对人工智能研究长期方向的看法。他阐述了一个愿景,即创建一个单一的通用模型,能够执行跨多种模式(如语言、视觉和音频)的任务。在一次采访中,他说:“梦想是在某个时候,会有一个模型,而这个模型将学会成为一名优秀的程序员、一名优秀的对话代理、进行视觉处理和进行语言处理。” [8] 这种理念也指导了他 2017 年的论文“One Model To Learn Them All”的工作。 [7]
在 2023 年 11 月的 OpenAI 领导层危机期间,他公开发布消息支持该公司的团队,包括声明“没有员工,OpenAI 什么都不是”。 [10]
在 2024 年和 2025 年的公开演讲中,例如 Pathway Meetup 和 Pi School,Kaiser 讨论了深度学习的演变。他将 2014 年该领域的状态与现在进行了对比,当时让神经网络与现有的翻译系统相匹配是一项重大突破,而现在像 GPT-4 这样的模型无需专门训练即可执行各种 NLP 任务。 [5] 展望未来,他强调“即将到来的数据稀缺”是一个主要挑战,并推测未来的性能提升将来自对从个人和组织知识图谱中检索到的更少、高质量的数据点进行训练。 [11]