**루카스 바이어(Lucas Beyer)**는 벨기에 출신의 연구 과학자로, Vision Transformer(ViT)에 대한 기초 연구를 포함하여 컴퓨터 비전, 표현 학습 및 대규모 모델 훈련에 기여한 공로로 인정받고 있습니다. 그는 Google DeepMind와 OpenAI에서 선임 연구원 직책을 맡았으며 현재 Meta의 초지능 팀에서 연구원으로 활동하고 있습니다. [1]
바이어는 독일 RWTH 아헨 대학교에서 공부하여 2012년에 전산 공학 과학(Computational Engineering Science) 분야에서 Diplom-Ingenieur(Dipl.Ing.) 학위를 1.3점으로 졸업했습니다. 그의 최종 논문은 "그래픽 가속기를 이용한 전산 생물학(Exploiting Graphics Accelerators for Computational Biology)"으로, GPU에서 일반화된 최소 자승 문제 해결에 초점을 맞추었으며 1.0점을 받았습니다. 졸업 후 2012년 11월부터 2013년 4월까지 아헨 첨단 전산 공학 연구소(AICES)에서 고성능 컴퓨팅 박사 과정을 잠시 시작했습니다. 그 후 2013년 6월부터 2018년 5월까지 RWTH 아헨의 시각 컴퓨팅 연구소에서 컴퓨터 비전 분야로 전환하여 박사 과정을 밟았습니다. 바스티안 라이베(Bastian Leibe) 교수의 지도하에 모바일 로봇의 컴퓨터 비전을 위한 딥러닝 연구에 집중했으며, 주석 작업량 감소에 중점을 두었습니다. [2] [3] [6]
바이어의 전문 경력은 박사 학위 취득 이전인 2006년부터 2008년까지 Digatron Power Electronics에서 프로그래머로 근무하면서 시작되었으며, 배터리 테스트 장비용 제어 시스템을 개발했습니다. 대학 재학 중에는 Mint medical GmbH에서 인턴으로 근무했으며 RWTH 아헨 대학교에서 여러 학생 연구 조교 및 튜터 역할을 수행했습니다.
박사 과정 동안 바이어는 여러 연구 인턴십을 완료했습니다. 2016년 여름에는 로스앤젤레스의 Google에서 이미지-시선 예측 관련 인턴으로 근무했습니다. 그 후 2016년 8월부터 11월까지 토론토의 AI 스타트업 Kindred에서 로봇 공학을 위한 인간 데모 학습에 집중했습니다. 2017년 여름에는 Google로 돌아와 또 다른 연구 인턴십을 수행하면서 FaceNet에서 학습한 표현 분리에 대한 연구를 진행했습니다.
2018년 박사 학위 취득 후 바이어는 취리히의 Google Brain에 Staff Research Scientist로 합류하여 2024년 10월 Google DeepMind로 통합될 때까지 이 직책을 유지했습니다. Google에서 그는 멀티모달(비전-언어) 연구팀을 공동 이끌었으며 수많은 영향력 있는 프로젝트에 기여했습니다. 이 기간 동안 그의 연구는 대규모 사전 훈련, 아키텍처 혁신 및 강력한 평가 방법론에 중점을 두고 컴퓨터 비전 및 멀티모달 학습을 위한 확장 가능하고 효율적인 모델 개발에 초점을 맞추었습니다.
바이어는 자연어 처리에서 성공을 거둔 Transformer 아키텍처를 컴퓨터 비전 작업에 적용한 획기적인 연구인 Vision Transformer(ViT)를 개발한 Google Research 팀의 일원이었습니다. 이 접근 방식은 이미지 패치 시퀀스에 직접 적용된 순수 트랜스포머가 이미지 분류 작업에서 매우 잘 수행될 수 있음을 보여주어 CNN(Convolutional Neural Networks)의 우위를 무너뜨렸습니다. 그는 또한 ViT 모델을 효과적으로 확장하여 최첨단 결과를 달성하는 방법을 탐구한 "Scaling Vision Transformers"의 공동 저자이기도 합니다. 아키텍처 설계를 더 탐구하면서 바이어는 컨볼루션 또는 자체 주의 메커니즘을 사용하지 않고도 경쟁력 있는 결과를 얻은 MLP(Multi-Layer Perceptrons)만을 기반으로 하는 아키텍처인 MLP-Mixer의 핵심 기여자였습니다. 그의 연구에는 대규모 사전 훈련된 비전 모델에서 전이 학습을 위한 원칙을 확립한 논문인 "Big Transfer(BiT)"와 다양한 계산 비용으로 유연한 배포를 가능하게 하기 위해 무작위 패치 크기로 ViT를 훈련하는 방법인 FlexiViT도 포함됩니다.
바이어는 또한 훈련 기술 및 데이터 세트 품질에 상당한 기여를 했습니다. 그는 모델 평가를 위한 보다 정확한 벤치마크를 제공하기 위해 ImageNet 검증 세트에서 레이블을 수정한 프로젝트인 ImageNet-ReaL 레이블 생성에 참여했습니다. 그의 멀티모달 모델에 대한 연구에는 CLIP과 같은 모델에서 사용되는 표준 소프트맥스 기반 손실에 대한 보다 확장 가능한 대안으로 대조적인 이미지-텍스트 사전 훈련에 시그모이드 손실을 사용할 것을 제안한 SigLIP이 포함됩니다. 박사 과정 동안 알렉산더 헤르만스(Alexander Hermans) 및 바스티안 라이베(Bastian Leibe)와 공동 저술한 논문 "사람 재식별을 위한 삼중 손실 방어(In Defense of the Triplet Loss for Person Re-Identification)"는 잘 구현된 삼중 손실이 딥 메트릭 학습에 대한 다른 방법보다 성능이 우수할 수 있음을 보여주었습니다. [1] [2] [3] [4] [5] [6]
2024년 말, Google을 떠난 후 바이어는 동료인 알렉산더 콜레스니코프(Alexander Kolesnikov) 및 샤오화 자이(Xiaohua Zhai)와 함께 OpenAI의 취리히 사무소를 공동 설립하여 기술 스태프 멤버로 활동했습니다. [8] [9]
2025년 6월, 바이어는 콜레스니코프 및 자이와 함께 OpenAI를 떠나 Meta의 초지능 팀에 연구원으로 합류했습니다. 이 이적은 OpenAI CEO 샘 알트만(Sam Altman)이 Meta가 직원을 모집하기 위해 1억 달러의 계약 보너스를 제공하고 있다는 주장을 한 후 언론의 관심을 끌었습니다. 바이어는 X(이전 트위터)에서 "아니요, 우리는 1억 달러의 계약금을 받지 않았습니다. 가짜 뉴스입니다."라고 밝혔습니다. 플랫폼에 대한 후속 답변에서 한 댓글 작성자가 알트만이 잠재적 모집자에게 저평가된 느낌을 주기 위해 그러한 주장을 했다고 제안하자 바이어는 "네, 훌륭한 움직임이었습니다. 인정해야 합니다."라고 답했습니다. [7] [8] [9]
박사 과정 동안 바이어는 공항 안내를 위해 설계된 서비스 로봇인 SPENCER와 일상 환경에서 로봇의 장기 자율성에 초점을 맞춘 STRANDS를 포함한 로봇 공학 프로젝트를 진행했습니다. 이 기간 동안 그의 초기 출판물은 2D 레이저 스캐너와 같은 센서를 사용하여 모바일 로봇의 인식 작업에 딥러닝을 적용하는 데 초점을 맞추었습니다. 주목할 만한 작품으로는 2D 범위 데이터에서 휠체어를 위한 실시간 딥러닝 감지기인 DROW와 이산 레이블에서 연속적인 머리 포즈 회귀를 위한 방법인 Biternion Nets가 있습니다.
주요 출판물은 다음과 같습니다.
이 목록은 해당 분야에서 그의 50개 이상의 출판물 중 일부를 나타냅니다.
바이어는 학업 및 연구 업적으로 여러 상과 장학금을 받았습니다.