**알렉산더 콜레스니코프(Alexander Kolesnikov)**는 컴퓨터 비전, 심층 표현 학습 및 전이 학습을 전문으로 하는 인공지능 연구원입니다. 그는 비전 트랜스포머(ViT)와 같은 영향력 있는 모델에 대한 그의 공헌과 Google, OpenAI, Meta Superintelligence Labs를 포함한 주요 AI 연구소에서의 그의 업적으로 유명합니다.
콜레스니코프는 2013년부터 2018년까지 박사 과정 학생으로 재학했던 오스트리아 과학기술연구소(IST Austria)에서 박사 학위를 받았습니다. 크리스토프 H. 람퍼트(Christoph H. Lampert)의 지도하에 그의 연구는 컴퓨터 비전, 전이 학습 및 심층 표현 학습에 중점을 두었으며, 이는 그의 이후 경력의 중심이 되었습니다. [1]
2018년 박사 학위를 마친 후 콜레스니코프는 Google에 연구원으로 합류하여 약 7년 동안 Google Brain 및 DeepMind 부서에서 근무했습니다. 이 기간 동안 그는 컴퓨터 비전 분야의 여러 중요한 프로젝트 개발에 참여했습니다. Google에서의 그의 업무에는 비전 트랜스포머(ViT), MLP-Mixer 및 대규모 비전 연구를 위한 플랫폼이 된 big_vision
오픈 소스 코드베이스에 대한 기여가 포함됩니다. [2] [1]
2024년 12월, 콜레스니코프는 Google을 떠나 OpenAI에 합류한다고 발표했습니다. 그는 자이샤오화(Xiaohua Zhai)와 안드레아스 기폴(Andreas Giffoul) 동료들과 함께 스위스 취리히에 새로운 OpenAI 사무소를 설립하는 임무를 맡았습니다. [2]
OpenAI에서의 그의 재임 기간은 짧았습니다. 2025년 6월, Meta Platforms가 OpenAI 취리히 사무소에서 콜레스니코프, Lucas Beyer 및 Xiaohua Zhai를 고용했다는 보도가 나왔습니다. 이 팀은 초지능 개발을 위한 Meta의 노력에 합류하도록 영입되었습니다. [3]
콜레스니코프는 컴퓨터 비전 및 AI 분야를 발전시킨 수많은 영향력 있는 연구 논문 및 오픈 소스 프로젝트의 주요 저자이자 기여자였습니다.
콜레스니코프는 원래 자연어 처리에서 성공적인 트랜스포머 모델을 컴퓨터 비전 작업에 적용한 아키텍처인 비전 트랜스포머(ViT)를 개발한 Google 연구팀의 일원이었습니다. ViT 모델은 이미지를 패치로 분할하고 문장에서 단어를 처리하는 방식과 유사하게 시퀀스로 처리합니다. 이러한 접근 방식은 순수 트랜스포머 아키텍처가 이미지 분류 작업에서 최첨단 결과를 달성할 수 있음을 보여주었으며, 오랫동안 지배적이었던 합성곱 신경망(CNN)에 도전했습니다. 2020년 10월, 콜레스니코프는 사전 훈련된 ViT 모델과 미세 조정 및 추론을 위한 해당 코드의 공개를 발표하여 AI 커뮤니티의 광범위한 채택과 추가 연구를 촉진했습니다. [4]
2021년 5월, 콜레스니코프는 다층 퍼셉트론(MLP)만을 기반으로 하는 새로운 비전 아키텍처인 MLP-Mixer를 소개하는 데 참여했습니다. 종종 "Mixer"라고 불리는 이 모델은 당시 주요 비전 모델에서 표준이었던 합성곱과 자기 주의 메커니즘을 사용하지 않습니다. 대신, 공간 위치(위치별 특징 혼합) 또는 특징 채널(패치별 특징 혼합)에서 MLP를 반복적으로 적용하여 작동합니다. 이 연구는 비전 벤치마크에서 강력한 성능을 달성하기 위해 복잡하고 특수한 아키텍처 구성 요소가 엄격하게 필요하지 않음을 보여주었습니다. MLP-Mixer의 코드와 사전 훈련된 모델도 공개적으로 제공되었습니다. [5]
big_vision
코드베이스콜레스니코프는 컴퓨터 비전에서 대규모 사전 훈련 및 전이 학습을 위해 설계된 Google 연구 코드베이스인 big_vision
의 주요 개발자였습니다. 이 저장소는 ViT, MLP-Mixer 및 LiT(Locked-image Tuning)와 같은 모델의 원래 개발 환경 역할을 했습니다. 그는 2022년 5월 공개를 발표하면서 대규모 모델 훈련과 다양한 다운스트림 작업에서 전이 기능 평가에 중점을 둔 연구를 수행하는 데 유용성을 강조했습니다. 이 코드베이스는 PaliGemma를 포함한 다른 모델을 개발하고 출시하는 데 사용되었습니다. [6]
콜레스니코프는 이미지와 텍스트 모두의 정보를 이해하고 처리하도록 설계된 비전-언어 모델(VLM) 개발에 기여했습니다. 2024년 5월, 그는 Google의 Gemma 아키텍처를 기반으로 하는 VLM인 PaliGemma-3B의 출시를 발표했습니다. 이 모델은 특정 응용 프로그램에 대한 미세 조정을 장려하기 위해 GitHub, Google Colab, Kaggle, Hugging Face 및 Vertex AI를 포함한 다양한 플랫폼을 통해 제공되었습니다. 이 분야에서 그의 업무에는 또 다른 비전-언어 모델 라인인 PaLI-3에 대한 기여도 포함됩니다. [7] [1]
2023년, 콜레스니코프는 강화 학습(RL)의 기술인 정책 경사 방법을 사용하여 컴퓨터 비전 모델을 미세 조정하는 연구를 공동 저술했습니다. "Task Rewards를 사용한 컴퓨터 비전 모델 조정"이라는 제목의 이 연구는 이 접근 방식이 평균 평균 정밀도(mAP) 또는 전경 품질(PQ)과 같은 복잡하고 미분 불가능한 지표를 직접 최적화할 수 있음을 보여주었습니다. 이 방법은 객체 감지 및 전경 분할과 같은 작업에서 상당한 성능 향상으로 이어져 기존 손실 기반 훈련에 대한 대안을 제공했습니다. [8]