Scaling Instruction-Finetuned Language Models (2022):这篇发表在 Journal of Machine Learning Research 上的论文系统地探讨了扩展模型开发的各个方面(包括模型大小、任务数量和思维链数据)如何影响性能。该研究表明,指令调整可以显著提高性能,并发布了 Flan-T5 模型。
PaLM: Scaling Language Modeling with Pathways (2022):作为合著者,Chung 为 5400 亿参数 Pathways Language Model (PaLM) 的开发做出了贡献。该论文详细介绍了该模型如何在 Pathways 系统上进行训练,并在众多语言任务中实现了最先进的少样本性能,展示了在推理、代码生成和翻译方面的突破。
Scaling Up Models and Data with t5x and seqio (2022):这项工作介绍了 T5X,这是一个模块化的、基于 JAX 的框架,用于大规模 Transformer 模型的高性能训练,以及 SeqIO,一个用于数据预处理的基于任务的库。Chung 是这篇论文的主要作者,该论文为 Google 的大部分大型模型研究提供了基础设施。
OpenAI o1 System Card (2024):Chung 是 OpenAI o1 模型的官方系统卡的贡献者。该文档全面概述了该模型的功能、性能基准、局限性以及开发过程中实施的安全协议。
Large Language Models Encode Clinical Knowledge (2023):这项发表在 Nature 上的研究调查了 LLM 在医学领域的潜力。该研究发现,像 Flan-PaLM 这样的模型可以在医学能力考试中获得很高的准确性,并为临床问题提供连贯的、长篇的答案。
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning (2023):这篇论文在国际机器学习大会 (ICML) 上发表,描述了“Flan Collection”的创建和设计,这是一个以指令形式格式化的大型任务数据集。该工作详细介绍了用于扩展指令调整的方法,并且是 Flan-T5 模型的基础。
UniMax: Fairer and more Effective Language Sampling for Large-Scale Multilingual Pretraining (2023):这篇论文在国际学习表征会议 (ICLR) 上发表,提出了一种新的数据采样方法,通过平衡不同语言之间的数据表示来提高多语言语言模型的性能和公平性。