Chunyuan Li는 대규모 언어 및 비전 모델에 중점을 둔 멀티모달 지능 분야의 연구로 알려진 인공지능 연구 과학자입니다. 그는 LLaVA(Large Language-and-Vision Assistant) 모델 제품군의 핵심 기여자이며 현재 Meta의 초지능 팀의 연구 과학자로 있습니다. [1] [2]
Li는 화중 과학 기술 대학교에서 학부 과정을 마치고 전자 및 정보 공학 학사 학위를 받았습니다. 이후 듀크 대학교에 진학하여 박사 과정을 밟아 전기 및 컴퓨터 공학 박사 학위를 취득했습니다. Lawrence Carin 교수의 지도 하에 그의 박사 연구는 심층 생성 모델 분야에 집중되었습니다. [1] [3] [6]
Chunyuan Li는 Redmond의 Microsoft Research에서 수석 연구원으로 경력을 시작했습니다. 그곳에서 그는 Oscar 및 Florence를 포함한 여러 기본 비전-언어 모델에 기여했습니다. Microsoft에서의 재임 기간 후 ByteDance Research Institute의 책임자 역할을 맡았습니다. 이후 xAI에 엔지니어링 디렉터로 합류하여 Grok-3과 같은 모델 개발에 참여했습니다. 2025년 중반, Li는 Meta에 연구 과학자로 합류하여 회사의 새로 구성된 초지능 그룹의 일원이 되었으며, 이 그룹은 인공 일반 지능 발전에 중점을 둡니다. 그의 전문 지식은 확산 모델 및 멀티모달 생성 분야에서 두드러집니다. [1] [4] [2] [3] [6]
Li의 연구는 멀티모달 AI 분야에서 여러 영향력 있는 모델 및 프레임워크 개발로 이어졌습니다. 그의 연구는 주로 시각 및 텍스트 데이터 모두에서 정보를 이해하고 처리할 수 있는 시스템을 만드는 데 중점을 둡니다. [1] [7]
Li는 범용 시각 및 언어 이해 기능을 갖도록 설계된 오픈 소스 멀티모달 모델 제품군인 LLaVA의 핵심 제작자입니다. 2023년에 출시된 초기 버전은 GPT-4와 같은 대규모 언어 모델의 기능을 활용하여 멀티모달 명령어 추종 데이터를 생성하는 시각적 명령어 튜닝이라는 기술을 사용하여 개발되었습니다. 이 프로젝트는 이후 여러 전문 버전 및 업그레이드를 포함하도록 확장되었습니다. [1] [4] [8]
LLaVA 제품군의 주요 개발 사항은 다음과 같습니다.
LLaVA 프로젝트와 후속 반복은 독점 멀티모달 시스템에 대한 강력하고 접근 가능한 대안을 제공하여 오픈 소스 AI 커뮤니티에 큰 영향을 미쳤습니다. [1]
LLaVA에 대한 작업을 수행하기 전에 Li는 비전-언어 사전 훈련 분야를 발전시킨 다른 여러 기본 모델에 기여했습니다. 이러한 프로젝트는 시각적 표현과 텍스트 표현을 정렬하는 새로운 방법을 확립하여 모델이 두 가지 양식을 모두 포함하는 복잡한 추론 및 생성 작업을 수행할 수 있도록 했습니다. [1]
그의 주목할 만한 초기 작품은 다음과 같습니다.
이러한 프로젝트는 더욱 강력하고 제어 가능한 멀티모달 AI 시스템을 구축하는 데 중요한 역할을 했습니다. [1] [7]
업계에서의 연구 역할 외에도 Li는 학계의 활동적인 구성원입니다. 그는 NeurIPS, ICML, ICLR, EMNLP 및 TMLR을 포함한 여러 주요 기계 학습 및 자연어 처리 컨퍼런스의 영역 의장으로 활동했습니다. 그는 또한 대규모 비전 모델이라는 주제에 대한 *International Journal of Computer Vision(IJCV)*의 특별호의 객원 편집자로 활동했습니다. Li는 최고 수준의 학술 행사에서 발표된 수많은 논문과 함께 광범위한 출판 기록을 보유하고 있습니다. [1] [5]