袁志李 是一位计算机科学家和研究员,专门研究人工智能和机器学习的理论基础。他因对理解深度学习、优化算法以及大型语言模型的工作做出的贡献而闻名,包括作为微软 Phi 系列模型的主要贡献者,他最近加入了 Meta Superintelligence 团队。[3]
袁志李就读于普林斯顿大学,并于 2018 年获得计算机科学博士学位。他的博士论文题为“关于梯度下降学习神经网络的能力”,该论文研究了通过基于梯度的优化技术训练神经网络的理论原理。[1] [3]
李作为机器学习领域多产的研究人员,拥有丰富的职业生涯,并在顶级学术场所发表了大量出版物。他早期的研究主要集中在优化、强化学习和矩阵分解的理论基础上。根据他作为众多技术报告和研究论文的合著者,李是微软研究院的研究员。在任职期间,他是小型语言模型 (SLM) Phi 系列开发的核心人物,该系列模型因以比许多大型模型更小的参数数量实现高性能而受到广泛关注。他合著了 phi-1.5、Phi-3 和 Phi-4 的技术报告,为专注于数据质量对模型能力影响的研究做出了贡献。
2025 年 7 月,据报道,李被 Meta Platforms 招募加入其人工智能研究部门。此举是 Meta 为增强其人工智能研究能力而进行的更广泛的人才收购工作的一部分。南华早报 的一份报告指出,李是加入 Meta 的 Superintelligence 实验室的几位专家之一。[2] [1] [3] [4] [5]
李的研究涵盖了机器学习和理论计算机科学领域的广泛主题。他的工作通常旨在回答关于深度学习模型的机制、能力和局限性的基本问题,重点是优化动态、泛化和特征学习。他已在 NeurIPS、ICML、ICLR、COLT、FOCS 和 STOC 等著名会议和期刊上发表了 200 多篇论文。[1] [5]
李的大部分研究致力于神经网络的理论特性。他合著了关于随机梯度下降 (SGD) 和 Adam 等优化算法的收敛性和行为的基础性论文,尤其是在现代深度学习中常见的过度参数化模型的背景下。他在该领域的工作探讨了算法的隐式偏差、初始化和学习率在确定训练结果中的关键作用,以及对抗鲁棒性和自监督学习的基础机制等概念。反映他对深度学习理论贡献的主要出版物包括“通过过度参数化实现深度学习的收敛理论”、“反向特征校正:深度学习如何执行深度(分层)学习”以及“解释神经网络训练中初始大学习率的正则化效应”。[1] [5]
近年来,李已将他的重点转移到大型语言模型 (LLM) 的原理和涌现能力上。他是 2023 年具有影响力的论文“人工通用智能的火花:GPT-4 的早期实验”的合著者,该论文分析了该模型的高级推理和问题解决能力,表明了人工通用智能的早期迹象。他也是“语言模型物理学”系列论文的主要作者,该系列论文旨在建立一个理论框架,用于理解 LLM 如何存储知识、操纵信息和执行复杂的推理任务。
他对该领域的另一项重大贡献是论文“LoRA:大型语言模型的低秩适应”。这项工作引入了一种参数高效的微调技术,该技术大大降低了将大型预训练模型适应特定下游任务的计算成本。此后,LoRA 已成为 LLM 实际应用中广泛采用的标准方法。[1] [5] [6]
在微软研究院工作期间,李是开发 Phi 系列小型语言模型的团队的关键成员。他被列为“教科书是你所需要的一切”(介绍了 Phi-1 背后的概念)、“教科书是你所需要的一切 II:phi-1.5 技术报告”、“Phi-3 技术报告”和“Phi-4 技术报告”的技术报告的合著者。这项研究表明,在高质量的“类似教科书”的数据上训练的模型可以在推理和语言理解基准上实现与更大模型相当甚至超过的性能。这项工作挑战了模型能力主要取决于规模(即参数数量)的普遍观点,并强调了训练数据质量和管理的关键重要性。
除了他在深度学习理论和 LLM 方面的工作外,李还对机器学习的其他领域做出了贡献,包括强化学习、生成建模和凸优化。他在这些领域的研究包括对生成对抗网络 (GAN) 的理论分析、扩散模型理论的开发以及高效 bandit 算法的设计。这些领域的代表性论文包括“采样就像学习分数一样容易:具有最小数据假设的扩散模型理论”和“解决强化学习中样本复杂度的 Horizon 依赖性”。[1] [5]
2023 年 6 月 6 日,认知革命 播客以微软研究院的 Nathan Labenz、Ronen Eldan 和袁志李之间关于 Tiny Stories 项目的讨论为特色。李解释说,该项目涉及一个合成数据集,其中包含大约 150 万个使用 GPT-4 和 GPT-3.5 生成的儿童故事。该数据集采用大约 2,000 个简单单词的受限词汇,旨在支持训练 100 万到 3300 万个参数的小型语言模型,约占 GPT-2 大小的 2%。
据李说,该项目提供了一个框架,用于检查核心语言能力(如语法、事实回忆和基本逻辑运算)在较小模型中的发展。他指出,模型深度与推理过程的复杂性相关,而模型宽度与事实信息的记忆容量相关。这些模型的注意力机制被描述为表现出两种主要模式:“距离头”,侧重于标记之间的位置关系;“语义头”,优先考虑内容相关性。
李还指出,推理任务在大型自然语言数据集中相对不常见,并且可能会与事实记忆竞争模型容量。他解释说,Tiny Stories 数据集可用于应用一种课程学习形式,其中以结构化的方式引入语言和推理技能。在可解释性方面,李表示,较小的模型往往可以更清楚地识别神经元和注意力头功能,而较大的模型则将功能分布在更多参数上,从而使其更难分析。他将对模型的实际控制比作骑马,其中有效使用不需要完全理解内部过程。
讨论概述了如何在计算受限的条件下应用 Tiny Stories 框架来研究语言模型的行为、推理能力和可解释性。[7]