**알렉산더 콜레스니코프(Alexander Kolesnikov)**는 컴퓨터 비전, 심층 표현 학습, 전이 학습을 전문으로 하는 인공지능 연구원입니다. 그는 Vision Transformer (ViT)와 같은 영향력 있는 모델에 기여했으며 Google, OpenAI, Meta Superintelligence Labs를 포함한 주요 AI 연구소에서 활동한 것으로 유명합니다.
콜레스니코프는 오스트리아 과학기술원(IST)에서 박사 과정을 밟았으며, 2013년부터 2018년까지 박사 과정 학생으로 등록되었습니다. Christoph H. Lampert의 지도 하에 그의 연구는 컴퓨터 비전, 전이 학습, 심층 표현 학습에 초점을 맞추었으며, 이 분야는 그의 이후 경력에서도 중심적인 역할을 했습니다. [1] [9]
2018년 박사 학위를 마친 후 콜레스니코프는 Google에 연구원으로 합류하여 Google Brain 및 DeepMind 부서에서 약 7년 동안 근무했습니다. 이 기간 동안 그는 컴퓨터 비전 분야에서 여러 중요한 프로젝트 개발에 참여했습니다. Google에서의 그의 작업에는 Vision Transformer (ViT), MLP-Mixer 및 대규모 비전 연구를 위한 플랫폼이 된 big_vision 오픈 소스 코드베이스에 대한 기여가 포함됩니다.
2024년 12월, 콜레스니코프는 Google을 떠나 OpenAI에 합류한다고 발표했습니다. 그는 동료인 Xiaohua Zhai 및 Andreas Giffoul과 함께 스위스 취리히에 새로운 OpenAI 사무실을 설립하는 임무를 맡았습니다.
OpenAI에서의 그의 재임 기간은 짧았습니다. 2025년 6월, Meta Platforms가 OpenAI의 취리히 사무실에서 콜레스니코프, Lucas Beyer 및 Xiaohua Zhai를 고용했다는 보고가 있었습니다. 이 팀은 Superintelligence 개발에 대한 Meta의 노력에 합류하기 위해 영입되었습니다. [1] [3] [9] [10] [11]
콜레스니코프는 컴퓨터 비전 및 AI 분야를 발전시킨 수많은 영향력 있는 연구 논문 및 오픈 소스 프로젝트의 핵심 저자이자 기여자였습니다.
콜레스니코프는 자연어 처리에서 성공적이었던 Transformer 모델을 컴퓨터 비전 작업에 적용한 아키텍처인 Vision Transformer (ViT)를 개발한 Google 연구팀의 일원이었습니다. ViT 모델은 이미지를 패치로 분할하고 문장에서 단어를 처리하는 방식과 유사하게 시퀀스로 취급하여 이미지를 처리합니다. 이 접근 방식은 순수한 Transformer 아키텍처가 이미지 분류 작업에서 최첨단 결과를 달성하여 컨볼루션 신경망(CNN)의 오랜 지배력에 도전할 수 있음을 입증했습니다. 2020년 10월, 콜레스니코프는 사전 훈련된 ViT 모델과 미세 조정 및 추론을 위한 해당 코드의 공개 릴리스를 발표하여 AI 커뮤니티의 광범위한 채택과 추가 연구를 촉진했습니다. [4]
2021년 5월, 콜레스니코프는 다층 퍼셉트론(MLP)만을 기반으로 하는 새로운 비전 아키텍처인 MLP-Mixer의 도입에 참여했습니다. 종종 "Mixer"라고 불리는 이 모델은 당시 주요 비전 모델에서 표준이었던 컨볼루션 및 자체 주의 메커니즘의 사용을 피합니다. 대신 공간 위치(위치별 특징 혼합) 또는 특징 채널(패치별 특징 혼합)에서 반복적으로 MLP를 적용하여 작동합니다. 이 연구는 복잡하고 전문화된 아키텍처 구성 요소가 비전 벤치마크에서 강력한 성능을 달성하는 데 반드시 필요한 것은 아님을 입증했습니다. MLP-Mixer에 대한 코드 및 사전 훈련된 모델도 공개적으로 제공되었습니다. [5]
big_vision 코드베이스콜레스니코프는 컴퓨터 비전에서 대규모 사전 훈련 및 전이 학습을 위해 설계된 Google 연구 코드베이스인 big_vision의 주요 개발자였습니다. 이 저장소는 ViT, MLP-Mixer 및 LiT(Locked-image Tuning)와 같은 모델의 원래 개발 홈 역할을 했습니다. 그는 2022년 5월에 공개 릴리스를 발표하면서 대규모 모델을 훈련하고 다양한 다운스트림 작업에서 전이 기능을 평가하는 데 중점을 둔 연구를 수행하는 데 유용하다고 강조했습니다. 이 코드베이스는 PaliGemma를 포함한 다른 모델을 개발하고 릴리스하는 데 사용되었습니다. [6]
콜레스니코프는 이미지와 텍스트 모두에서 정보를 이해하고 처리하도록 설계된 비전-언어 모델(VLM) 개발에 기여했습니다. 2024년 5월, 그는 Google의 Gemma 아키텍처를 기반으로 하는 VLM인 PaliGemma-3B의 릴리스를 발표했습니다. 이 모델은 특정 애플리케이션에 대한 미세 조정을 장려하기 위해 GitHub, Google Colab, Kaggle, Hugging Face 및 Vertex AI를 포함한 다양한 플랫폼을 통해 제공되었습니다. 이 분야에서 그의 작업에는 또 다른 비전-언어 모델 라인인 PaLI-3에 대한 기여도 포함됩니다. [7] [1]
2023년, 콜레스니코프는 강화 학습(RL)의 기술인 정책 기울기 방법을 사용하여 컴퓨터 비전 모델을 미세 조정하는 연구를 공동 저술했습니다. "Task Rewards를 사용한 컴퓨터 비전 모델 튜닝"이라는 제목의 이 연구는 이 접근 방식이 평균 평균 정밀도(mAP) 또는 파놉틱 품질(PQ)과 같은 복잡하고 미분 불가능한 메트릭에 대해 직접 최적화할 수 있음을 입증했습니다. 이 방법은 객체 감지 및 파놉틱 분할과 같은 작업에서 상당한 성능 향상을 가져왔으며 기존 손실 기반 훈련에 대한 대안을 제공했습니다. [8] [10]
2021년 10월 4일 IARAI Research 채널에 대한 프레젠테이션에서 Alexander Kolesnikov는 거의 10년 동안 컴퓨터 비전에서 널리 사용된 컨볼루션 신경망(CNN)에 대한 대안 아키텍처에 대해 논의했습니다.
그는 최근 연구에서 소개된 두 가지 모델인 Vision Transformer (ViT)와 MLP-Mixer를 간략하게 설명했습니다. Vision Transformer는 자연어 처리를 위해 원래 개발된 Transformer 프레임워크를 이미지를 패치로 나누어 이미지 분석에 적용합니다. 이 구조는 CNN에 내재된 지역성 제약을 제거하고 가장 초기 레이어부터 전역적인 주의를 가능하게 합니다.
MLP-Mixer는 다층 퍼셉트론(MLP) 레이어만을 기반으로 하는 더 간단한 디자인으로 제시되었습니다. 컨볼루션 또는 자체 주의 메커니즘을 사용하지 않고 이미지 패치와 채널 간에 정보를 혼합하는 방식으로 번갈아 가며 작동합니다. 단순화된 구조에도 불구하고 여러 비전 작업에서 경쟁력 있는 결과를 달성했습니다.
콜레스니코프에 따르면 이러한 모델은 엄격한 지역성이 효과적인 비전 아키텍처에 필요한 조건이 아님을 시사합니다. 그는 대규모 사전 훈련의 역할, ViT 및 MLP-Mixer와 같은 모델의 적응성, 이미지 분류를 넘어서는 작업에 대한 이러한 접근 방식의 잠재적 적용을 강조했습니다. 그는 또한 진행 중인 연구가 아키텍처 설계, 정규화 전략, 자체 지도 학습 및 분할 및 감지와 같은 작업에 대한 확장을 계속 탐구하고 있다고 언급했습니다. [12]