Chunyuan Li

Chunyuan Li는 대규모 언어 및 비전 모델에 중점을 둔 멀티모달 지능 분야의 연구로 알려진 인공지능 연구 과학자입니다. 그는 LLaVA(Large Language-and-Vision Assistant) 모델 제품군의 핵심 기여자이며 현재 Meta의 초지능 팀의 연구 과학자로 있습니다. ^[1] ^[2]

교육

Li는 화중 과학 기술 대학교에서 학부 과정을 마치고 전자 및 정보 공학 학사 학위를 받았습니다. 이후 듀크 대학교에 진학하여 박사 과정을 밟아 전기 및 컴퓨터 공학 박사 학위를 취득했습니다. Lawrence Carin 교수의 지도 하에 그의 박사 연구는 심층 생성 모델 분야에 집중되었습니다. ^[1] ^[3] ^[6]

경력

Chunyuan Li는 Redmond의 Microsoft Research에서 수석 연구원으로 경력을 시작했습니다. 그곳에서 그는 Oscar 및 Florence를 포함한 여러 기본 비전-언어 모델에 기여했습니다. Microsoft에서의 재임 기간 후 ByteDance Research Institute의 책임자 역할을 맡았습니다. 이후 xAI에 엔지니어링 디렉터로 합류하여 Grok-3과 같은 모델 개발에 참여했습니다. 2025년 중반, Li는 Meta에 연구 과학자로 합류하여 회사의 새로 구성된 초지능 그룹의 일원이 되었으며, 이 그룹은 인공 일반 지능 발전에 중점을 둡니다. 그의 전문 지식은 확산 모델 및 멀티모달 생성 분야에서 두드러집니다. ^[1] ^[4] ^[2] ^[3] ^[6]

주요 작품

Li의 연구는 멀티모달 AI 분야에서 여러 영향력 있는 모델 및 프레임워크 개발로 이어졌습니다. 그의 연구는 주로 시각 및 텍스트 데이터 모두에서 정보를 이해하고 처리할 수 있는 시스템을 만드는 데 중점을 둡니다. ^[1] ^[7]

LLaVA(Large Language-and-Vision Assistant)

Li는 범용 시각 및 언어 이해 기능을 갖도록 설계된 오픈 소스 멀티모달 모델 제품군인 LLaVA의 핵심 제작자입니다. 2023년에 출시된 초기 버전은 GPT-4와 같은 대규모 언어 모델의 기능을 활용하여 멀티모달 명령어 추종 데이터를 생성하는 시각적 명령어 튜닝이라는 기술을 사용하여 개발되었습니다. 이 프로젝트는 이후 여러 전문 버전 및 업그레이드를 포함하도록 확장되었습니다. ^[1] ^[4]^[8]

LLaVA 제품군의 주요 개발 사항은 다음과 같습니다.

LLaVA-1.5: 보다 효율적인 훈련으로 수많은 오픈 소스 비전-언어 벤치마크에서 최첨단 결과를 달성한 업그레이드 버전입니다. 단일 8-A100 노드에서 약 하루 만에 공개적으로 사용 가능한 데이터로 훈련되었습니다.
LLaVA-Med: 생물 의학 이미지에 대한 질문에 답변할 수 있는 생물 의학 도메인에 맞춘 버전입니다. 이 모델은 15시간 이내에 훈련되었으며 NeurIPS 2023 데이터 세트 및 벤치마크 트랙에서 스포트라이트 논문으로 인정받았습니다.
LLaVA-Interactive: 단일 인터페이스 내에서 이미지 채팅, 분할, 생성 및 편집과 같은 기능을 활성화하여 멀티모달 인간-AI 상호 작용을 보여주는 데모 프로젝트입니다.
LLaVA-NeXT: 강력한 오픈 소스 비전-언어 모델을 구축하기 위한 확장 가능하고 효율적인 레시피를 추가로 탐색한 2024년에 출시된 일련의 모델입니다.

LLaVA 프로젝트와 후속 반복은 독점 멀티모달 시스템에 대한 강력하고 접근 가능한 대안을 제공하여 오픈 소스 AI 커뮤니티에 큰 영향을 미쳤습니다. ^[1]

기본 비전-언어 모델

LLaVA에 대한 작업을 수행하기 전에 Li는 비전-언어 사전 훈련 분야를 발전시킨 다른 여러 기본 모델에 기여했습니다. 이러한 프로젝트는 시각적 표현과 텍스트 표현을 정렬하는 새로운 방법을 확립하여 모델이 두 가지 양식을 모두 포함하는 복잡한 추론 및 생성 작업을 수행할 수 있도록 했습니다. ^[1]

그의 주목할 만한 초기 작품은 다음과 같습니다.

Oscar: 이미지와 텍스트 간의 정렬을 개선하기 위해 이미지에서 감지된 객체 태그를 앵커 포인트로 도입한 비전-언어 사전 훈련 모델입니다.
Florence: 광범위한 컴퓨터 비전 작업에서 강력한 성능을 달성하기 위해 통합 언어-이미지-레이블 대조 학습 접근 방식(UniCL)을 사용한 Microsoft에서 개발한 비전 기반 모델입니다.
GLIP(Grounded Language-Image Pre-training): 객체 감지 및 구문 접지를 단일 사전 훈련 프레임워크로 통합하여 높은 정확도로 제로샷 감지를 수행할 수 있도록 하는 모델입니다. GLIP는 CVPR 2022에서 최우수 논문 결선 진출자였습니다.
GroundingDINO: 변환기 기반 감지기(DINO)와 접지된 사전 훈련을 결합하여 임의의 텍스트 입력을 기반으로 객체를 식별할 수 있는 오픈 세트 객체 감지기를 생성하는 모델입니다.
GLIGEN(Grounded Language-to-Image Generation): 특정 경계 상자 위치에 접지된 객체로 이미지를 생성할 수 있도록 하여 사전 훈련된 텍스트-이미지 확산 모델의 기능을 확장하는 방법입니다.

이러한 프로젝트는 더욱 강력하고 제어 가능한 멀티모달 AI 시스템을 구축하는 데 중요한 역할을 했습니다. ^[1] ^[7]

학술 서비스

업계에서의 연구 역할 외에도 Li는 학계의 활동적인 구성원입니다. 그는 NeurIPS, ICML, ICLR, EMNLP 및 TMLR을 포함한 여러 주요 기계 학습 및 자연어 처리 컨퍼런스의 영역 의장으로 활동했습니다. 그는 또한 대규모 비전 모델이라는 주제에 대한 *International Journal of Computer Vision(IJCV)*의 특별호의 객원 편집자로 활동했습니다. Li는 최고 수준의 학술 행사에서 발표된 수많은 논문과 함께 광범위한 출판 기록을 보유하고 있습니다. ^[1] ^[5]