Łukasz Kaiser 是数据处理公司 Pathway 的联合创始人。他的职业生涯包括在 Google Brain 和 OpenAI 担任高级研究职位。他是 2017 年论文《Attention Is All You Need》的主要合著者之一,该论文介绍了 Transformer 深度学习架构,该架构是当今大多数大型语言模型的基础。[1] [2]
Kaiser于2004年和2001年分别获得波兰弗罗茨瓦夫大学计算机科学和数学双硕士学位。[3] [4] 随后,他在德国亚琛工业大学攻读博士学位,并于2008年获得计算机科学博士学位。[5] [6] 他的论文题目为自动结构上的逻辑与博弈,重点研究算法模型理论。[7] [3] 后来,他于2013年从巴黎狄德罗大学获得计算机科学特许任教资格(HDR),论文题目为“非排序数据的逻辑与自动机”。[8]
Kaiser的职业生涯始于学术界,专注于理论计算机科学、逻辑和自动机理论。 [9] 完成博士学位后,他曾在亚琛工业大学和LIAFA(巴黎狄德罗大学下属的实验室)担任博士后研究员。 [2] 2010年末,他成为法国国家科学研究中心(CNRS)的 chargé de recherche(终身研究科学家),常驻巴黎狄德罗大学。 [6] [7] 2013年,Kaiser从学术界转型到工业界,加入位于加利福尼亚州山景城的谷歌大脑团队,从事深度学习研究。 [7] 后来,他评论了这一转变,指出与理论计算机科学相比,深度学习的变化速度非常快。 [7]
在 2013 年 8 月至 2021 年 4 月期间,Kaiser 在 Google Brain 工作了近八年,晋升为研究科学家,并为公司的多个重要人工智能项目做出了关键贡献。 [1] 他在 TensorFlow 的开发中发挥了关键作用,TensorFlow 是 Google 的开源机器学习框架。 [6] 他对注意力机制的研究是 Google 神经机器翻译 (GNMT) 系统的核心组成部分,该系统为 Google 翻译提供支持。 [6]
2017 年,他合著了论文《Attention Is All You Need》,介绍了 Transformer 架构。同年,他共同创建并领导开发了 Tensor2Tensor (T2T),这是一个旨在使深度学习研究更易于访问的开源库,其中包括 Transformer 模型的参考实现。 [1] 他还合著了 Reformer 模型,这是 Transformer 的一种高效变体,旨在以更少的内存使用量处理长序列。 [4]
Kaiser于2021年4月加入OpenAI,担任研究员。 [1] 在OpenAI,他为GPT-4和Codex等模型的开发做出了贡献。 [5] 后来,他担任OpenAI o1模型系列的研究主管,该系列于2024年9月推出。 [10]
与他的研究生涯同时,Kaiser于2020年1月共同创立了技术公司Pathway,并担任首席科学家。 [1] Pathway开发了一种反应式数据处理框架,通过统一流和批处理数据,实现实时机器学习应用。该公司的目标是使AI系统能够随着新数据的到来自动更新,从而促进需要对实时数据进行低延迟响应的应用。 [11] [12]
Kaiser 是 2017 年论文《Attention Is All You Need》的八位合著者之一,该论文介绍了 Transformer。这种模型架构通过摒弃循环 (RNN) 和卷积 (CNN) 层,完全依赖于自注意力机制,标志着序列处理的重大转变。 [2] 自注意力允许模型权衡输入序列中不同单词的重要性,以更好地理解上下文。这种设计实现了训练期间更大的并行化,使其对于训练大型语言模型所使用的大规模数据集非常有效。此后,Transformer 已成为大多数最先进的 NLP 模型(包括 BERT 和 GPT 系列)的基础架构。 [1]
该论文的其他合著者包括 Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez 和 Illia Polosukhin。 [10]
在 Google 工作期间,Kaiser 是 TensorFlow 框架的主要作者和核心贡献者,该框架已成为构建和部署机器学习模型的标准工具。 [8] [6] 为了加速研究并提高可访问性,他领导创建了 Tensor2Tensor (T2T),这是一个深度学习模型和数据集的开源库。 [2] T2T 旨在使研究人员更容易地针对最先进的模型测试新想法,并作为 Transformer 模型代码的初始公共存储库,从而促进了它的快速采用。 [8]
在 OpenAI,Kaiser 担任 o1 模型系列的研究负责人,他称该模型系列为 2024 年 9 月发布的人工智能“新范式”。 [10] 根据他的说法,这些模型旨在利用“隐藏的 CoT”(思维链),这是一种内部推理过程,使它们能够在提供响应之前花费更多的计算精力进行思考。 他表示,与之前的架构相比,这种方法使模型能够从更少的数据中学习,更好地泛化,并进行某种形式的近似推理。 [10] 2024 年 12 月,他对 o3 模型的早期评估版本发表评论,指出其在推理基准测试方面的先进能力。 [10]
Kaiser因其博士论文获得了2009年E.W. Beth论文奖,该奖项颁发给逻辑、语言和信息领域杰出的博士论文。 [6] [7]
2024年10月,Kaiser及其“Attention Is All You Need”的七位合著者因对Transformer模型发展的贡献而被授予2024年NEC C&C奖。 [10]
截至2025年末,根据他的Google Scholar个人资料,Kaiser的著作已被引用超过425,000次。论文“Attention Is All You Need”是现代计算机科学中被引用次数最多的论文之一,引用次数超过100,000次。 [2]
Kaiser 是一位活跃的人工智能会议演讲者,并分享了他对人工智能研究长期方向的看法。他阐述了一个愿景,即创建一个能够执行跨多种模式(如语言、视觉和音频)任务的单一通用模型。在一次采访中,他表示:“梦想是,在某个时候,将会有一个模型,这个模型将学会成为一名优秀的程序员、一名优秀的对话代理、能够进行视觉处理和语言处理。” [8] 这一理念也指导了他 2017 年的论文《One Model To Learn Them All》。[7]
在 2023 年 11 月的 OpenAI 领导层危机期间,他公开发布消息支持该公司的团队,包括声明:“没有员工,OpenAI 什么都不是。” [10]
在 2024 年和 2025 年的公开演讲中,例如 Pathway Meetup 和 Pi School,Kaiser 讨论了深度学习的演变。他将 2014 年该领域的状态(当时让神经网络与现有的翻译系统相匹配是一项重大突破)与现在的情况进行了对比,现在的模型(如 GPT-4)无需专门的训练即可执行各种 NLP 任务。[5] 展望未来,他强调“即将到来的数据稀缺”是一个主要挑战,并推测未来的性能提升将来自于在从个人和组织知识图谱中检索的更少、高质量的数据点上进行训练。[11]
本次访谈邀请了计算机科学家Łukasz Kaiser,讨论了与当代人工智能系统的发展、行为和局限性相关的主题。该访谈于2025年11月28日在This Is World YouTube频道上发布。Kaiser是论文Attention Is All You Need的合著者,该论文介绍了后来被大型语言模型采用的Transformer架构。
在对话中,Kaiser描述了最初作为序列建模的技术方法提出的Transformer模型,如何被广泛应用于基于语言的人工智能系统中。他表示,主要基于文本数据训练模型导致了超越直接记忆的泛化能力的出现。根据Kaiser的说法,大型语言数据集中存在的模式似乎与人类推理的某些结构相一致,从而使模型能够执行在训练期间未明确指定的任务。
Kaiser还谈到了目前对大规模模型缺乏全面的理论理解。他解释说,虽然可以详细分析较小的系统,但由于大型模型的规模和复杂性,其行为仍然难以解释。从他的角度来看,泛化是人工智能的核心研究问题,仅靠模型规模的增加并不能解决潜在的概念差距。
访谈还涵盖了现有架构的局限性。Kaiser指出,当前的系统没有包含生物智能中存在的许多元素,例如具身性、感官体验或进化约束。他认为,神经科学和生物学的见解可能会为未来的研究方向提供信息。他总结说,人工智能的未来发展可能需要改变基础学习方法,而不是继续扩展现有的模型设计。 [12]
本次访谈于2025年11月26日在YouTube频道The MAD Podcast with Matt Turck上发布,Łukasz Kaiser在访谈中讨论了与人工智能研究相关的主题。对话基于Kaiser本人的解释和解读,探讨了当代人工智能系统中使用的当前研究方向和技术方法。
在访谈中,Kaiser指出,研究实验室内部的人工智能开发正以稳定的速度持续进行。他将这一进展描述为计算规模的增加和模型训练方法改变的结果。根据他的说法,预训练仍然是当前工作流程的一部分,同时强化学习技术在面向推理的模型中得到更广泛的应用。
Kaiser解释说,推理模型经过训练,可以在解决问题过程中生成中间步骤,通常被称为思维链。他将这种训练方法与允许客观验证的任务联系起来,包括数学、软件开发和科学问题解决。他将这种方法与早期主要依赖于学习统计关联而没有明确中间推理步骤的语言模型进行了对比。
讨论还涵盖了OpenAI最近的模型迭代,包括GPT 4、GPT 5和GPT 5.1。Kaiser认为这些版本之间的变化主要归因于后训练过程、强化学习和数据过滤实践,而不是仅仅参数数量的增加。他还提到了技术和运营方面的考虑,例如GPU资源分配、模型蒸馏以及与大规模训练和部署相关的基础设施要求。
Kaiser介绍了他的学术和职业生涯背景,提到了早期与逻辑和游戏相关的工作,以及在Google Brain和OpenAI的研究职位。他提到了他作为Transformer架构的合著者之一的身份,并将其描述为一种通用的神经网络设计,用于多种人工智能任务。他指出,该领域内对替代和补充架构的研究仍在继续。
在谈到未来的研究课题时,Kaiser提到了泛化、多模态推理、代理的扩展任务执行和机器人技术等领域。他指出,当前的系统在不同任务中表现出不同的性能,并且在需要跨上下文进行一致推理的领域仍然存在局限性。他还提到了与应用人工智能系统中的可解释性、系统可靠性和人工监督相关的持续研究。 [13]