翟晓华(翟晓华)是一位计算机科学研究员,以其在计算机视觉、多模态学习和大规模人工智能模型方面的工作而闻名。他为有影响力的模型和技术的开发做出了贡献,包括视觉转换器(ViT)、大型传输(BiT)和用于语言图像预训练的Sigmoid损失(SigLIP),并且是Meta超智能团队的一员。[1] [9]
翟晓华就读于北京大学,2005年至2009年获得计算机科学与技术学士学位。他继续在同一所大学学习,于2009年至2014年间完成了计算机科学博士学位。在攻读博士学位期间,他的博士生导师是彭宇新。他早期的研究重点是跨媒体检索和异构度量学习等领域。[2] [3] [1]
完成博士学位后,翟晓华于2015年加入谷歌,担任软件工程师。他于2017年转到谷歌大脑担任研究职务,并于2023年转到谷歌DeepMind。在谷歌DeepMind,他担任高级研究科学家和技术主管经理,领导着位于苏黎世的多模态研究小组。他的团队专注于开发像WebLI这样的多模态数据集,创建像SigLIP和PaliGemma这样的开放权重模型,并通过数据平衡和文化多样性研究来研究人工智能的包容性。在谷歌工作了近十年后,翟晓华于2024年末宣布他将加入OpenAI的苏黎世办事处,担任技术人员。
2025年中期,翟晓华与密切的合作者Lucas Beyer和Alexander Kolesnikov一起宣布,他们将从OpenAI转到Meta。此举是Meta为建立其Meta超智能实验室(MSL)而进行的更广泛的招聘工作的一部分,该团队致力于开发先进的人工智能能力。虽然三人加入MSL的名单已得到确认,但由于技术原因,他们的正式加入被指出仍在等待中。
翟晓华的研究对计算机视觉和视觉语言建模领域产生了影响。他与人合著了许多论文,这些论文介绍了用于训练大规模人工智能系统的基础模型和技术。他的工作通常侧重于迁移学习、表征学习和高效地扩展模型。
翟晓华是开发“图像值16x16个单词:用于大规模图像识别的转换器”论文的团队成员,该论文介绍了视觉转换器(ViT)。这项工作表明,直接应用于图像块序列的纯转换器架构可以在图像分类中实现最先进的结果,从而挑战了卷积神经网络(CNN)的主导地位。他还与人合著了“缩放视觉转换器”,该论文系统地研究了ViT的缩放特性,并展示了如何通过缩放模型大小、数据集大小和训练计算来提高性能。这项研究为如何有效地训练非常大的视觉模型提供了关键见解。
翟晓华的大部分工作都集中在预训练用于通用视觉表示的模型上,这些模型可以有效地转移到各种下游任务。他是“大型传输(BiT):通用视觉表示学习”的核心贡献者,该论文介绍了一组在大型数据集(ImageNet-21k和JFT-300M)上预训练的模型,这些模型通过最少的微调在各种视觉任务上实现了高性能。他还共同创建了视觉任务适应基准(VTAB),这是一套多样化的视觉任务,旨在评估预训练模型的泛化能力。
翟晓华为多模态研究做出了重要贡献,尤其是在结合视觉和语言方面。
翟晓华还研究了自我监督和半监督学习方法。他是“S4L:自我监督半监督学习”的合著者,该论文探讨了将自我监督与传统的监督学习相结合以提高模型性能,尤其是在低数据情况下。另一项值得注意的工作“知识提炼:一位好老师要有耐心和一致性”研究了如何通过确保教师模型随着时间的推移为学生模型提供一致和稳定的指导来改进提炼过程。
在他的职业生涯中,翟晓华一直是机器学习研究社区的活跃成员。他曾担任主要人工智能会议(包括CVPR、ICCV、ICML、ICLR、NeurIPS和AAAI)以及学术期刊(如JMLR、TPAMI和TNNLS)的审稿人。他还曾在顶级会议上共同组织研讨会和教程,例如CVPR 2022教程“超越卷积神经网络”和NeurIPS 2021研讨会“ImageNet:过去、现在和未来”。从2012年到2013年,在他的博士学习期间,他担任第14届CCF YOCSEF GS(中国计算机学会,青年计算机科学家与工程师论坛,研究生)主席。[1] [2] [3] [4] [5] [6] [7] [8] [9]