**리 추니위안(Chunyuan Li)**은 대규모 언어 및 비전 모델에 중점을 둔 다중 모달 지능 분야에서 활동하는 인공지능 연구 과학자입니다. 그는 LLaVA(Large Language-and-Vision Assistant) 모델 계열에 중요한 기여를 했으며, 현재 Meta의 슈퍼인텔리전스팀의 연구 과학자로 재직 중입니다. [1] [2]
리 추니위안은 화중과학기술대학교에서 전자정보공학 학사 학위를 받았습니다. 이후 듀크 대학교에서 전기 및 컴퓨터 공학 박사 학위를 취득했습니다. 로렌스 캐린(Lawrence Carin) 교수의 지도하에 심층 생성 모델 분야를 중심으로 박사 연구를 수행했습니다. [1] [3]
리 추니위안은 레드먼드의 마이크로소프트 연구소에서 수석 연구원으로 경력을 시작했습니다. 재직 기간 동안 Oscar 및 Florence를 포함한 여러 기초적인 비전-언어 모델에 기여했습니다. 마이크로소프트 재직 후 바이트댄스 연구소의 책임자를 역임했습니다. 이후 xAI에 디렉터 엔지니어로 합류하여 Grok-3와 같은 모델 개발에 참여했습니다. 2025년 중반, 리 추니위안은 메타에 연구 과학자로 합류하여 인공 일반 지능 발전에 중점을 둔 회사의 새롭게 설립된 슈퍼인텔리전스 그룹의 일원이 되었습니다. 그의 전문 분야는 확산 모델과 다중 모달 생성입니다. [1] [4] [2] [3]
리 추니위안의 연구는 다중 모달 AI 분야에서 여러 영향력 있는 모델과 프레임워크의 개발로 이어졌습니다. 그의 연구는 주로 시각 및 텍스트 데이터 모두에서 정보를 이해하고 처리할 수 있는 시스템을 만드는 데 중점을 둡니다. [1]
리 추니위안은 범용적인 시각 및 언어 이해 기능을 갖도록 설계된 오픈소스 다중 모달 모델 계열인 LLaVA의 주요 개발자입니다. 2023년에 출시된 초기 버전은 GPT-4와 같은 대규모 언어 모델의 기능을 활용하여 다중 모달 지시 사항 따르기 데이터를 생성하는 시각적 지시 조정 기술을 사용하여 개발되었습니다. 이 프로젝트는 그 이후로 여러 특수 버전과 업그레이드를 포함하도록 확장되었습니다. [1] [4]
LLaVA 계열의 주요 개발 사항은 다음과 같습니다.
LLaVA 프로젝트와 그 이후의 반복은 강력하고 접근 가능한 독점 다중 모달 시스템의 대안을 제공함으로써 오픈소스 AI 커뮤니티에 영향을 미쳤습니다. [1]
LLaVA 작업 이전에 리 추니위안은 비전-언어 사전 훈련 분야를 발전시킨 다른 여러 기초 모델에 기여했습니다. 이러한 프로젝트는 시각 및 텍스트 표현을 정렬하는 새로운 방법을 확립하여 모델이 두 모달리티를 모두 포함하는 복잡한 추론 및 생성 작업을 수행할 수 있도록 했습니다. [1]
그의 주목할 만한 초기 연구는 다음과 같습니다.
이러한 프로젝트는 더욱 능력 있고 제어 가능한 다중 모달 AI 시스템을 구축하는 데 중요한 역할을 했습니다. [1]
산업계에서의 연구 역할 외에도 리 추니위안은 학계에서 활발하게 활동하고 있습니다. 그는 NeurIPS, ICML, ICLR, EMNLP 및 TMLR을 포함한 여러 주요 기계 학습 및 자연어 처리 컨퍼런스에서 분과 위원장을 역임했습니다. 또한 대규모 비전 모델을 주제로 *국제 컴퓨터 비전 저널(IJCV)*의 특별호 게스트 편집자로 활동했습니다. 리 추니위안은 최고 수준의 학술 행사에서 발표된 수많은 논문을 포함하여 광범위한 출판 실적을 보유하고 있습니다. [1] [5]