Xiaohua Zhai
자이샤오화(翟晓华)는 컴퓨터 비전, 다중 모달 학습 및 대규모 인공 지능 모델 분야에서의 연구로 잘 알려진 컴퓨터 과학 연구원입니다. 그는 비전 트랜스포머(ViT), 빅 트랜스퍼(BiT), 그리고 언어 이미지 사전 훈련을 위한 시그모이드 손실(SigLIP)을 포함한 영향력 있는 모델 및 기술 개발에 기여했으며, 메타 슈퍼인텔리전스 팀의 일원입니다. [1] [9]
교육
자이는 2005년부터 2009년까지 베이징대학교에서 컴퓨터 과학 및 기술 학사 학위를 받았습니다. 그는 같은 대학에서 2009년부터 2014년까지 컴퓨터 과학 박사 학위를 받았습니다. 박사 과정 중 그의 지도 교수는 펑위신(Yuxin Peng)이었습니다. 그의 초기 연구는 크로스 미디어 검색 및 이종 메트릭 학습과 같은 분야에 중점을 두었습니다. [2] [3] [1]
경력
박사 학위를 마친 후, 자이는 2015년 구글에 소프트웨어 엔지니어로 입사했습니다. 그는 2017년 구글 브레인에서 연구직으로 전환했고, 2023년 구글 딥마인드로 이직했습니다. 구글 딥마인드에서 그는 수석 연구원이자 기술 리드 매니저 직책을 맡아 취리히에 기반을 둔 다중 모달 연구 그룹을 이끌었습니다. 그의 팀은 WebLI와 같은 다중 모달 데이터셋 개발, SigLIP 및 PaliGemma와 같은 오픈 가중치 모델 생성, 데이터 균형 및 문화적 다양성 연구를 통한 AI의 포용성 연구에 중점을 두었습니다. 구글에서 거의 10년을 보낸 후, 자이는 2024년 말 오픈AI 취리히 사무소의 기술 직원으로 합류할 것이라고 발표했습니다.
2025년 중반, 자이는 긴밀한 협력자인 루카스 베이어와 알렉산더 콜레스니코프와 함께 오픈AI를 떠나 메타에 합류할 것이라고 발표했습니다. 이 이직은 첨단 AI 기능 개발에 전념하는 팀인 메타 슈퍼인텔리전스 랩 (MSL)을 구축하기 위한 메타의 광범위한 채용 노력의 일환이었습니다. MSL 명단에 이 세 명이 추가된 것은 확인되었지만, 기술적인 문제로 인해 공식적인 포함은 보류 중이라고 언급되었습니다.
자이의 연구는 컴퓨터 비전과 비전-언어 모델링 분야에 영향을 미쳤습니다. 그는 대규모 AI 시스템을 훈련하기 위한 기본 모델과 기술을 소개한 수많은 논문을 공동 저술했습니다. 그의 연구는 종종 전이 학습, 표현 학습 및 모델 효율적인 확장에 중점을 둡니다.
자이는 "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale"이라는 논문을 개발한 팀의 일원이었는데, 이 논문은 이미지 패치의 시퀀스에 직접 적용된 순수 트랜스포머 아키텍처가 이미지 분류에서 최첨단 결과를 달성할 수 있음을 보여주었고, 합성곱 신경망(CNN)의 지배력에 도전했습니다. 그는 또한 "Scaling Vision Transformers"를 공동 저술했는데, 이 논문은 ViT의 확장 특성을 체계적으로 연구하고 모델 크기, 데이터셋 크기 및 훈련 컴퓨팅을 확장하여 성능을 향상시킬 수 있는 방법을 보여주었습니다. 이 연구는 매우 큰 비전 모델을 효과적으로 훈련하는 방법에 대한 중요한 통찰력을 제공했습니다.
자이의 연구 상당 부분은 다양한 다운스트림 작업에 효과적으로 전이될 수 있는 일반적인 시각적 표현을 위한 사전 훈련 모델에 중점을 둡니다. 그는 "Big Transfer (BiT): General Visual Representation Learning"에 핵심 기여자였는데, 이 논문은 대규모 데이터셋(ImageNet-21k 및 JFT-300M)에서 사전 훈련된 모델 집합을 소개했으며, 최소한의 미세 조정으로 광범위한 비전 작업에서 높은 성능을 달성했습니다. 그는 또한 사전 훈련된 모델의 일반화 기능을 평가하도록 설계된 다양한 비전 작업 모음인 Visual Task Adaptation Benchmark (VTAB)를 공동으로 만들었습니다.
자이는 특히 비전과 언어를 결합하는 다중 모달 연구에 중요한 기여를 했습니다.
- LiT (Locked-image Text Tuning): 그는 사전 훈련된 언어 모델을 고정된 사전 훈련된 이미지 모델과 함께 작동하도록 미세 조정하는 방법을 소개한 논문의 주요 저자였습니다. 이 접근 방식은 비전 작업에서 강력한 제로샷 성능을 달성하는 컴퓨팅 효율적인 방법임이 입증되었습니다.
- SigLIP (Sigmoid Loss for Language Image Pre-Training): 자이는 표준 소프트맥스 기반 대조 손실을 더 간단한 시그모이드 손실로 대체하는 것을 제안한 이 연구의 주요 저자였습니다. 이러한 변경으로 더 큰 배치 크기로 훈련할 수 있었고, 비전-언어 모델의 성능과 훈련 안정성이 향상되었습니다.
- PaLI (Pathways Language and Image Model): 그는 PaLI-3 및 오픈 소스 PaliGemma를 포함한 PaLI 계열 모델에 기여했습니다. 이러한 모델은 이미지 캡션, 시각적 질문 응답 및 객체 감지와 같은 광범위한 작업을 처리할 수 있는 다용도의 다국어 비전-언어 모델(VLM)입니다.
자이는 자기 지도 학습 및 준지도 학습 방법에 대해서도 연구했습니다. 그는 자기 지도 학습과 기존의 지도 학습을 결합하여 특히 데이터가 부족한 환경에서 모델 성능을 향상시키는 방법을 탐구한 "S4L: Self-Supervised Semi-Supervised Learning"의 공동 저자였습니다. 또 다른 주목할 만한 연구인 "Knowledge distillation: A good teacher is patient and consistent"는 시간이 지남에 따라 교사 모델이 학생 모델에 일관되고 안정적인 지침을 제공하도록 함으로써 증류 프로세스를 개선하는 방법을 조사했습니다.
자이는 그의 경력 전반에 걸쳐 기계 학습 연구 커뮤니티의 활동적인 구성원이었습니다. 그는 CVPR, ICCV, ICML, ICLR, NeurIPS 및 AAAI를 포함한 주요 AI 컨퍼런스와 JMLR, TPAMI 및 TNNLS와 같은 학술 저널의 심사위원으로 활동했습니다. 그는 또한 CVPR 2022 튜토리얼 "Beyond Convolutional Neural Networks" 및 NeurIPS 2021 워크숍 "ImageNet: past, present, and future"와 같은 최고 컨퍼런스에서 워크숍과 튜토리얼을 공동으로 주최했습니다. 박사 과정 중이던 2012년부터 2013년까지 그는 제14회 CCF YOCSEF GS(중국 컴퓨터 연맹, 젊은 컴퓨터 과학자 및 엔지니어 포럼, 대학원생) 의장을 역임했습니다. [1] [2] [3] [4] [5] [6] [7] [8] [9]