Lucas Beyer

Lucas Beyer 是一位比利时研究科学家，因其在计算机视觉、表征学习和大规模模型训练方面的贡献而闻名，包括在 Vision Transformer (ViT) 上的基础性工作。他曾在 Google DeepMind 和 OpenAI 担任高级研究职位，目前是 Meta 的超智能团队的研究员。 ^[1]

教育背景

Beyer 在德国亚琛工业大学 (RWTH Aachen University) 学习，并于 2012 年获得计算工程科学专业的 Diplom-Ingenieur (Dipl.Ing.) 学位，成绩为 1.3。他的毕业论文题为“利用图形加速器进行计算生物学”，重点研究了在 GPU 上解决广义最小二乘问题，成绩为 1.0。毕业后，他于 2012 年 11 月至 2013 年 4 月期间，在亚琛计算工程科学高级研究所 (AICES) 短暂开始了高性能计算方向的博士项目。之后，他转到计算机视觉领域，于 2013 年 6 月至 2018 年 5 月在亚琛工业大学视觉计算研究所攻读博士学位。他的博士研究由 Bastian Leibe 教授指导，主要研究用于移动机器人的计算机视觉深度学习，重点是减少标注工作。 ^[2] ^[3] ^[6]

职业生涯

Beyer 的职业生涯开始于攻读博士学位之前，2006 年至 2008 年期间，他在 Digatron Power Electronics 担任程序员，负责电池测试设备的控制系统。在大学学习期间，他曾在 Mint medical GmbH 实习，并在亚琛工业大学担任多个学生研究助理和辅导员职位。

在攻读博士学位期间，Beyer 完成了多次研究实习。2016 年夏天，他在洛杉矶的 Google 实习，研究图像-视线预测。然后，他于 2016 年 8 月至 11 月在多伦多的 AI 初创公司 Kindred 实习，专注于从人类演示中学习机器人技术。2017 年夏天，他回到 Google 进行了另一次研究实习，研究 FaceNet 学习到的解耦表征。

Google

2018 年完成博士学位后，Beyer 加入了 Google Brain 在苏黎世的团队，担任 Staff Research Scientist，并在其整合到 Google DeepMind 后一直担任该职位，直到 2024 年 10 月。在 Google，他共同领导了多模态（视觉-语言）研究团队，并为许多具有重大影响的项目做出了贡献。他在此期间的研究重点是开发用于计算机视觉和多模态学习的可扩展且高效的模型，重点关注大规模预训练、架构创新和稳健的评估方法。

Beyer 是 Google Research 团队的一员，该团队开发了 Vision Transformer (ViT)，这是一项开创性的工作，将先前在自然语言处理中取得成功的 Transformer 架构应用于计算机视觉任务。这种方法表明，直接应用于图像块序列的纯 Transformer 可以在图像分类任务中表现出色，从而挑战了卷积神经网络 (CNN) 的主导地位。他还与人合著了“Scaling Vision Transformers”，探讨了如何有效地扩展 ViT 模型以实现最先进的结果。在进一步探索架构设计方面，Beyer 是 MLP-Mixer 的主要贡献者，这是一种完全基于多层感知器 (MLP) 的架构，无需使用卷积或自注意力机制即可获得具有竞争力的结果。他的工作还包括“Big Transfer (BiT)”，这是一篇确立了从大规模预训练视觉模型进行迁移学习的原则的论文，以及 FlexiViT，这是一种使用随机补丁大小训练 ViT 的方法，以便能够在不同的计算成本下灵活部署。

Beyer 还为训练技术和数据集质量做出了重大贡献。他参与创建了 ImageNet-ReaL 标签，该项目纠正了 ImageNet 验证集中的标签，以便为模型评估提供更准确的基准。他在多模态模型方面的工作包括 SigLIP，该模型提出使用 sigmoid 损失进行对比图像-文本预训练，作为模型（如 CLIP）中使用的标准基于 softmax 的损失的更具可扩展性的替代方案。与 Alexander Hermans 和 Bastian Leibe 在他攻读博士学位期间合著的论文“In Defense of the Triplet Loss for Person Re-Identification”表明，良好实现的三元组损失可以胜过其他深度度量学习方法。 ^[1] ^[2] ^[3] ^[4] ^[5] ^[6]

OpenAI

2024 年底，离开 Google 后，Beyer 与他的同事 Alexander Kolesnikov 和 Xiaohua Zhai 共同创立了 OpenAI 的苏黎世办事处，担任技术人员。 ^[8] ^[9]

机器人技术和早期研究

在他的博士期间，Beyer 从事机器人项目，包括 SPENCER，一种旨在为机场提供指导的服务机器人，以及 STRANDS，该项目专注于机器人在日常环境中的长期自主性。他在此期间的早期出版物侧重于将深度学习应用于使用 2D 激光扫描仪等传感器的移动机器人的感知任务。值得注意的作品包括 DROW，一种用于 2D 范围数据中轮椅的实时深度学习检测器，以及 Biternion Nets，一种从离散标签进行连续头部姿势回归的方法。

他的一些主要出版物包括：

Vision Transformer (ViT) (2020);
MLP-Mixer: An all-MLP Architecture for Vision (2021);
Big Transfer (BiT): General Visual Representation Learning (2019);
Scaling Vision Transformers (2021);
Sigmoid Loss for Language Image Pre-Training (SigLIP) (2023);
Are we done with ImageNet? (2020);
In Defense of the Triplet Loss for Person Re-Identification (2017);
Biternion Nets: Continuous Head Pose Regression from Discrete Training Labels (2015).

此列表代表了他在此领域 50 多篇出版物的一个子集。

Beyer 因其学术和研究工作而获得了多个奖项和奖学金。

亚琛 Google 开发者小组黑客马拉松的获胜者。
在 Kaggle 国家数据科学碗比赛中名列前 10%。
有前途的学生的 Bildungsfonds 奖学金获得者。
合格学生的 AICES 博士奖学金获得者。
获得了 think-cell 学生资助，参加了 2014 年的 Meeting C++ 会议。

这些荣誉是在他在亚琛工业大学期间获得的。 ^[2] ^[1] ^[3] ^[4] ^[5]

订阅 wiki

Share wiki

Bookmark

Wiki Details

个人简介