Xiaohua Zhai(翟晓华)는 컴퓨터 비전, 멀티모달 학습 및 대규모 인공 지능 모델 분야에서 업적으로 알려진 컴퓨터 과학 연구원입니다. 그는 Vision Transformer (ViT), Big Transfer (BiT) 및 Sigmoid Loss for Language Image Pre-Training (SigLIP)을 포함한 영향력 있는 모델 및 기술 개발에 기여했으며 Meta Superintelligence 팀의 일원입니다. [1] [9]
Zhai는 2005년부터 2009년까지 베이징 대학교에서 컴퓨터 과학 및 기술 학사 학위를 받았습니다. 그는 같은 기관에서 2009년부터 2014년까지 컴퓨터 과학 박사 학위(Ph.D.)를 마쳤습니다. 박사 과정 동안 그의 박사 지도 교수는 Yuxin Peng이었습니다. 그의 초기 연구는 크로스 미디어 검색 및 이종 메트릭 학습과 같은 분야에 중점을 두었습니다. [2] [3] [1]
박사 학위를 마친 후 Zhai는 2015년에 Google에 소프트웨어 엔지니어로 입사했습니다. 그는 2017년에 Google Brain에서 연구 역할로 전환했고 2023년에는 Google DeepMind로 이직했습니다. Google DeepMind에서 그는 취리히에 기반을 둔 멀티모달 연구 그룹을 이끄는 수석 연구 과학자 및 기술 리드 관리자 직책을 맡았습니다. 그의 팀은 WebLI와 같은 멀티모달 데이터 세트 개발, SigLIP 및 PaliGemma와 같은 오픈 웨이트 모델 생성, 데이터 균형 조정 및 문화 다양성 연구를 통한 AI의 포용성 연구에 중점을 두었습니다. Google에서 거의 10년 동안 근무한 후 Zhai는 2024년 말에 OpenAI의 취리히 사무소에 기술 스태프 멤버로 합류할 것이라고 발표했습니다.
2025년 중반, Zhai는 가까운 협력자인 Lucas Beyer 및 Alexander Kolesnikov와 함께 OpenAI에서 Meta로 이직한다고 발표했습니다. 이 이직은 Meta가 고급 AI 기능을 개발하기 위해 전념하는 팀인 Meta Superintelligence Labs (MSL)를 구축하기 위한 광범위한 채용 노력의 일환이었습니다. MSL 명단에 세 사람이 추가된 것은 확인되었지만, 기술적인 문제로 인해 공식적인 포함은 보류 중인 것으로 알려졌습니다.
Zhai의 연구는 컴퓨터 비전 및 비전-언어 모델링 분야에 큰 영향을 미쳤습니다. 그는 대규모 AI 시스템 교육을 위한 기본 모델 및 기술을 소개한 수많은 논문의 공동 저자입니다. 그의 연구는 종종 전이 학습, 표현 학습 및 모델 효율적인 확장에 중점을 둡니다.
Zhai는 Vision Transformer (ViT)를 소개한 논문인 "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale"을 개발한 팀의 일원이었습니다. 이 연구는 이미지 패치 시퀀스에 직접 적용된 순수한 트랜스포머 아키텍처가 이미지 분류에서 최첨단 결과를 달성하여 컨볼루션 신경망 (CNN)의 우위를 뒤흔들 수 있음을 보여주었습니다. 그는 또한 ViT의 확장 속성을 체계적으로 연구하고 모델 크기, 데이터 세트 크기 및 교육 컴퓨팅을 확장하여 성능을 향상시킬 수 있는 방법을 보여준 "Scaling Vision Transformers"의 공동 저자이기도 합니다. 이 연구는 매우 큰 비전 모델을 효과적으로 교육하는 방법에 대한 핵심 통찰력을 제공했습니다.
Zhai의 작업의 상당 부분은 다양한 다운스트림 작업에 효과적으로 전송될 수 있는 일반적인 시각적 표현을 위한 사전 교육 모델에 중점을 둡니다. 그는 대규모 데이터 세트 (ImageNet-21k 및 JFT-300M)에서 사전 교육된 모델 세트를 도입하여 최소한의 미세 조정으로 광범위한 비전 작업에서 높은 성능을 달성한 "Big Transfer (BiT): General Visual Representation Learning"의 핵심 기여자였습니다. 그는 또한 사전 교육된 모델의 일반화 기능을 평가하기 위해 설계된 다양한 비전 작업 모음인 Visual Task Adaptation Benchmark (VTAB)를 공동으로 만들었습니다.
Zhai는 특히 비전과 언어를 결합하여 멀티모달 연구에 중요한 기여를 했습니다.
Zhai는 또한 자기 지도 및 준 지도 학습 방법론에 대한 연구를 진행했습니다. 그는 모델 성능, 특히 저데이터 체제에서 모델 성능을 향상시키기 위해 자기 지도 학습과 기존 지도 학습을 결합하는 방법을 모색한 "S4L: Self-Supervised Semi-Supervised Learning"의 공동 저자였습니다. 또 다른 주목할 만한 연구인 "Knowledge distillation: A good teacher is patient and consistent"는 교사 모델이 시간이 지남에 따라 학생 모델에 일관되고 안정적인 지침을 제공하도록 하여 증류 프로세스를 개선하는 방법을 조사했습니다.
Zhai는 경력 전반에 걸쳐 머신 러닝 연구 커뮤니티의 적극적인 회원이었습니다. 그는 CVPR, ICCV, ICML, ICLR, NeurIPS 및 AAAI를 포함한 주요 AI 컨퍼런스와 JMLR, TPAMI 및 TNNLS와 같은 학술 저널의 심사 위원으로 활동했습니다. 그는 또한 CVPR 2022 튜토리얼 "Beyond Convolutional Neural Networks" 및 NeurIPS 2021 워크숍 "ImageNet: past, present, and future"와 같은 최고의 컨퍼런스에서 워크숍 및 튜토리얼을 공동으로 조직했습니다. 2012년부터 2013년까지 박사 과정 동안 그는 제14회 CCF YOCSEF GS (China Computer Federation, Young Computer Scientists & Engineers Forum, Graduate Students)의 회장을 역임했습니다. [1] [2] [3] [4] [5] [6] [7] [8] [9]