亚历山大·科列斯尼科夫是一位人工智能研究员,专门研究计算机视觉、深度表征学习和迁移学习。他以对 Vision Transformer (ViT) 等有影响力的模型的贡献以及他在包括 Google、OpenAI 和 Meta 超智能实验室在内的主要人工智能实验室的工作而闻名。
科列斯尼科夫在奥地利科学技术研究所 (IST) 攻读博士学位,于 2013 年至 2018 年注册为博士生。在 Christoph H. Lampert 的指导下,他的研究重点是计算机视觉、迁移学习和深度表征学习,这些领域仍然是他后续职业生涯的核心。[1] [9]
2018 年完成博士学位后,科列斯尼科夫加入 Google 担任研究员,在其 Google Brain 和 DeepMind 部门工作了大约七年。在此期间,他参与了计算机视觉领域几个重要项目的开发。他在 Google 的工作包括对 Vision Transformer (ViT)、MLP-Mixer 和 big_vision 开源代码库的贡献,该代码库成为大规模视觉研究的平台。
2024 年 12 月,科列斯尼科夫宣布离开 Google 加入 OpenAI。他与同事 Xiaohua Zhai 和 Andreas Giffoul 一起,负责在瑞士苏黎世建立一个新的 OpenAI 办事处。
他在 OpenAI 的任期很短。2025 年 6 月,据报道 Meta Platforms 从 OpenAI 苏黎世办事处聘请了科列斯尼科夫、Lucas Beyer 和 Xiaohua Zhai。该团队被招募加入 Meta 在开发 超智能 方面的努力。[1] [3] [9] [10] [11]
科列斯尼科夫一直是众多有影响力的研究论文和开源项目的主要作者和贡献者,这些论文和项目推动了计算机视觉和人工智能领域的发展。
科列斯尼科夫是 Google 研究团队的一员,该团队开发了 Vision Transformer (ViT),这是一种将 Transformer 模型(最初在自然语言处理中获得成功)应用于计算机视觉任务的架构。ViT 模型通过将图像分割成补丁并将它们视为序列来处理图像,类似于在句子中处理单词的方式。这种方法表明,纯 Transformer 架构可以在图像分类任务上取得最先进的结果,从而挑战了卷积神经网络 (CNN) 的长期主导地位。2020 年 10 月,科列斯尼科夫宣布公开发布预训练的 ViT 模型以及用于微调和推理的相应代码,这促进了人工智能社区的广泛采用和进一步研究。[4]
2021 年 5 月,科列斯尼科夫参与了 MLP-Mixer 的推出,这是一种完全基于多层感知器 (MLP) 的新型视觉架构。该模型通常被称为“Mixer”,避免使用卷积和自注意力机制,这些机制在当时是领先视觉模型的标准配置。相反,它通过在空间位置(混合每个位置的特征)或特征通道(混合每个补丁的特征)上重复应用 MLP 来运行。该研究表明,复杂的、专门的架构组件对于在视觉基准上实现强大的性能并非绝对必要。MLP-Mixer 的代码和预训练模型也已公开发布。[5]
big_vision 代码库科列斯尼科夫是 big_vision 的主要开发者,这是一个 Google 研究代码库,专为计算机视觉中的大规模预训练和迁移学习而设计。该存储库是 ViT、MLP-Mixer 和 LiT(锁定图像调整)等模型的原始开发所在地。他于 2022 年 5 月宣布公开发布该代码库,强调了它在进行研究方面的实用性,重点是训练大型模型并评估它们在各种下游任务中的迁移能力。该代码库已用于开发和发布其他模型,包括 PaliGemma。[6]
科列斯尼科夫为视觉语言模型 (VLM) 的开发做出了贡献,这些模型旨在理解和处理来自图像和文本的信息。2024 年 5 月,他宣布发布 PaliGemma-3B,这是一种基于 Google Gemma 架构的 VLM。该模型通过各种平台提供,包括 GitHub、Google Colab、Kaggle、Hugging Face 和 Vertex AI,以鼓励针对特定应用进行微调。他在该领域的工作还包括对 PaLI-3(另一系列视觉语言模型)的贡献。[7] [1]
2023 年,科列斯尼科夫与人合着了一项研究,探讨了使用策略梯度方法(一种来自强化学习 (RL) 的技术)来微调计算机视觉模型。该研究题为“使用任务奖励调整计算机视觉模型”,表明这种方法可以直接针对复杂的、不可微分的指标进行优化,例如平均精度均值 (mAP) 或全景质量 (PQ)。这种方法显着提高了对象检测和全景分割等任务的性能,为传统的基于损失的训练提供了一种替代方案。[8] [10]
在 2021 年 10 月 4 日 IARAI Research 频道的一次演讲中,亚历山大·科列斯尼科夫讨论了卷积神经网络 (CNN) 的替代架构,CNN 在计算机视觉中已广泛使用了近十年。
他概述了最近研究中介绍的两种模型:Vision Transformer (ViT) 和 MLP-Mixer。Vision Transformer 通过将图像划分为补丁,将最初为自然语言处理开发的 Transformer 框架应用于图像分析。这种结构消除了 CNN 固有的局部性约束,并从最早的层启用全局注意力。
MLP-Mixer 被提出为一种更简单的设计,仅基于多层感知器 (MLP) 层。它在跨图像补丁和跨通道混合信息之间交替,而不使用卷积或自注意力机制。尽管其结构简化,但它在多个视觉任务中取得了具有竞争力的结果。
根据科列斯尼科夫的说法,这些模型表明严格的局部性不是有效视觉架构的必要条件。他强调了大规模预训练的作用、ViT 和 MLP-Mixer 等模型的适应性,以及这些方法在图像分类之外的任务中的潜在应用。他还指出,正在进行的研究继续探索架构设计、正则化策略、自监督学习以及对分割和检测等任务的扩展。[12]