**리 위안즈(Yuanzhi Li)**는 인공지능과 기계 학습의 이론적 기반을 전문으로 하는 컴퓨터 과학자이자 연구원입니다. 그는 심층 학습, 최적화 알고리즘에 대한 이해와 대규모 언어 모델에 대한 연구, 특히 마이크로소프트의 Phi 시리즈 모델에 대한 주요 기여자로서 인정받고 있으며, 최근 메타 초지능(Meta Superintelligence)팀에 합류했습니다. [3]
리 위안즈는 프린스턴 대학교에 재학하여 2018년 컴퓨터 과학 박사 학위를 받았습니다. 그의 박사 논문 제목은 "경사 하강법이 신경망을 학습하는 능력에 관하여"로, 경사 기반 최적화 기법을 통한 신경망 훈련을 지배하는 이론적 원리를 조사했습니다. [1] [3]
리 위안즈는 기계 학습 분야에서 왕성한 연구 활동을 통해 최고 수준의 학술지에 다수의 논문을 발표했습니다. 그의 초기 연구는 최적화, 강화 학습 및 행렬 분해의 이론적 기반에 초점을 맞추었습니다. 수많은 기술 보고서와 연구 논문의 공동 저자로서, 그는 마이크로소프트 연구소(Microsoft Research)의 연구원이었습니다. 재직 기간 동안 그는 많은 대규모 모델에 비해 더 작은 매개변수 수로 높은 성능을 달성하여 주목을 받은 Phi 시리즈의 소규모 언어 모델(SLM) 개발의 중심 인물이었습니다. 그는 phi-1.5, Phi-3, Phi-4에 대한 기술 보고서를 공동 저술하여 데이터 품질이 모델 기능에 미치는 영향에 대한 연구를 수행했습니다.
2025년 7월, 리 위안즈가 메타 플랫폼(Meta Platforms)의 인공지능 연구 부서에 합류했다는 보도가 있었습니다. 이는 메타가 AI 연구 역량을 강화하기 위한 광범위한 인재 영입 노력의 일환이었습니다. *사우스 차이나 모닝 포스트(South China Morning Post)*의 보고서는 리 위안즈를 메타의 초지능(Meta's Superintelligence) 연구소에 합류한 여러 전문가 중 한 명으로 지목했습니다. [2] [1] [3] [4] [5]
리 위안즈의 연구는 기계 학습과 이론 컴퓨터 과학 분야의 광범위한 주제를 다룹니다. 그의 연구는 종종 최적화 역학, 일반화 및 특징 학습에 중점을 두고 심층 학습 모델의 메커니즘, 기능 및 한계에 대한 근본적인 질문에 답하는 것을 목표로 합니다. 그는 NeurIPS, ICML, ICLR, COLT, FOCS 및 STOC를 포함한 저명한 학회 및 저널에 200편 이상의 논문을 발표했습니다. [1] [5]
리 위안즈의 연구 상당 부분은 신경망의 이론적 특성에 전념하고 있습니다. 그는 특히 현대 심층 학습에서 일반적인 과매개모수화 모델의 맥락에서 확률적 경사 하강법(SGD) 및 Adam과 같은 최적화 알고리즘의 수렴 및 동작에 대한 기초 논문을 공동 저술했습니다. 이 분야에서 그의 연구는 알고리즘의 암묵적 편향, 훈련 결과를 결정하는 초기화 및 학습률의 중요한 역할, 그리고 적대적 강건성과 자기 지도 학습의 기본 메커니즘과 같은 개념을 탐구합니다. 심층 학습 이론에 대한 그의 기여를 반영하는 주요 간행물에는 "과매개모수화를 통한 심층 학습에 대한 수렴 이론", "역방향 특징 수정: 심층 학습이 심층(계층적) 학습을 수행하는 방법", "신경망 훈련에서 초기 큰 학습률의 규제 효과 설명을 향하여"가 있습니다. [1] [5]
최근 몇 년 동안 리 위안즈는 대규모 언어 모델(LLM)의 원리와 출현 능력에 초점을 맞추었습니다. 그는 모델의 고급 추론 및 문제 해결 능력을 분석하고 인공 일반 지능의 초기 징후를 제시한 영향력 있는 2023년 논문 "인공 일반 지능의 섬광: GPT-4를 사용한 초기 실험"의 공동 저자였습니다. 그는 또한 LLM이 지식을 저장하고, 정보를 조작하며, 복잡한 추론 작업을 수행하는 방법을 이해하기 위한 이론적 프레임워크를 구축하는 것을 목표로 하는 "언어 모델의 물리학" 시리즈 논문의 주요 저자입니다.
그의 또 다른 중요한 기여는 "LoRA: 대규모 언어 모델의 저순위 적응" 논문입니다. 이 연구는 사전 훈련된 대규모 모델을 특정 다운스트림 작업에 적용하는 계산 비용을 크게 줄이는 매개변수 효율적인 미세 조정 기술을 소개했습니다. LoRA는 그 이후로 LLM의 실제 응용에서 널리 채택되고 표준적인 방법이 되었습니다. [1] [5] [6]