Xiaohua Zhai
翟晓华 (翟晓华) 是一位计算机科学研究员,以其在计算机视觉、多模态学习和大规模人工智能模型方面的工作而闻名。他为有影响力的模型和技术的开发做出了贡献,包括 Vision Transformer (ViT)、Big Transfer (BiT) 和用于语言图像预训练的 Sigmoid Loss (SigLIP),并且是 Meta Superintelligence 团队的成员。 [1] [9]
教育
翟晓华就读于北京大学,2005 年至 2009 年获得计算机科学与技术学士学位。他继续在同一所大学学习,于 2009 年至 2014 年间完成计算机科学博士学位。在攻读博士学位期间,他的博士生导师是彭宇新。他早期的研究重点是跨媒体检索和异构度量学习等领域。 [2] [3] [1]
职业生涯
完成博士学位后,翟晓华于 2015 年加入谷歌,担任软件工程师。他于 2017 年转到 Google Brain 担任研究员,并于 2023 年转到 Google DeepMind。在 Google DeepMind,他担任高级研究科学家和技术主管经理,领导着位于苏黎世的多模态研究小组。他的团队专注于开发像 WebLI 这样的多模态数据集,创建像 SigLIP 和 PaliGemma 这样的开放权重模型,并通过数据平衡和文化多样性研究来研究人工智能的包容性。在谷歌工作了近十年后,翟晓华于 2024 年底宣布他将加入 OpenAI 苏黎世办事处,担任技术人员。
2025 年年中,翟晓华与密切的合作者 Lucas Beyer 和 Alexander Kolesnikov 宣布他们将从 OpenAI 加入 Meta。此举是 Meta 为建立其 Meta Superintelligence Labs (MSL) 而进行的更广泛的招聘工作的一部分,该团队致力于开发先进的人工智能能力。虽然三人加入 MSL 的消息已得到确认,但由于技术原因,他们的正式加入被指出仍在等待中。
翟晓华的研究对计算机视觉和视觉语言建模领域产生了重要影响。他与人合著了许多论文,这些论文介绍了用于训练大规模人工智能系统的基础模型和技术。他的工作通常侧重于迁移学习、表征学习和高效的模型扩展。
翟晓华是开发“An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”论文的团队成员,该论文介绍了 Vision Transformer (ViT)。这项工作表明,直接应用于图像块序列的纯 Transformer 架构可以在图像分类中取得最先进的结果,从而挑战了卷积神经网络 (CNN) 的主导地位。他还与人合著了“Scaling Vision Transformers”,该论文系统地研究了 ViT 的缩放特性,并展示了如何通过缩放模型大小、数据集大小和训练计算来提高性能。这项研究为如何有效地训练非常大的视觉模型提供了关键见解。
翟晓华的大部分工作都集中在为通用视觉表示预训练模型,这些模型可以有效地转移到各种下游任务。他是“Big Transfer (BiT): General Visual Representation Learning”的核心贡献者,该论文介绍了一组在大型数据集(ImageNet-21k 和 JFT-300M)上预训练的模型,这些模型在各种视觉任务上以最小的微调实现了高性能。他还共同创建了 Visual Task Adaptation Benchmark (VTAB),这是一套多样化的视觉任务,旨在评估预训练模型的泛化能力。
翟晓华为多模态研究做出了重要贡献,尤其是在结合视觉和语言方面。
- LiT (Locked-image Text Tuning): 他是介绍这种方法的论文的主要作者,该方法涉及微调预训练的语言模型以与冻结的预训练图像模型一起工作。这种方法被证明是一种计算效率高的方法,可以在视觉任务上实现强大的零样本性能。
- SigLIP (Sigmoid Loss for Language Image Pre-Training): 翟晓华是这项工作的主要作者,该工作建议用更简单的 sigmoid 损失替换标准的基于 softmax 的对比损失。这种改变允许使用更大的批量大小进行训练,并提高了视觉语言模型的性能和训练稳定性。
- PaLI (Pathways Language and Image Model): 他是 PaLI 模型系列的贡献者,包括 PaLI-3 和开源 PaliGemma。这些模型是通用的多语言视觉语言模型 (VLM),可以处理各种任务,例如图像字幕、视觉问题解答和对象检测。
翟晓华还致力于自监督和半监督学习方法。他是“S4L: Self-Supervised Semi-Supervised Learning”的合著者,该论文探讨了将自监督与传统的监督学习相结合以提高模型性能,尤其是在低数据情况下。另一项值得注意的工作“Knowledge distillation: A good teacher is patient and consistent”研究了如何通过确保教师模型随着时间的推移为学生模型提供一致和稳定的指导来改进蒸馏过程。
在他的职业生涯中,翟晓华一直是机器学习研究社区的活跃成员。他曾担任主要人工智能会议(包括 CVPR、ICCV、ICML、ICLR、NeurIPS 和 AAAI)以及 JMLR、TPAMI 和 TNNLS 等学术期刊的审稿人。他还曾在顶级会议上共同组织研讨会和教程,例如 CVPR 2022 教程“Beyond Convolutional Neural Networks”和 NeurIPS 2021 研讨会“ImageNet: past, present, and future”。2012 年至 2013 年,在他的博士学习期间,他担任第 14 届 CCF YOCSEF GS(中国计算机学会,青年计算机科学家与工程师论坛,研究生)主席。 [1] [2] [3] [4] [5] [6] [7] [8] [9]