Yuanzhi Li는 인공지능과 머신러닝의 이론적 기초를 전문으로 하는 컴퓨터 과학자이자 연구원입니다. 그는 딥 러닝, 최적화 알고리즘에 대한 이해와 Microsoft의 Phi 시리즈 모델의 핵심 기여자로서 대규모 언어 모델에 대한 기여로 인정받고 있으며, 최근 Meta Superintelligence 팀에 합류했습니다. [3]
Yuanzhi Li는 프린스턴 대학교에 다녔으며, 2018년에 컴퓨터 과학 박사 학위를 받았습니다. 그의 박사 학위 논문은 "신경망을 학습하는 경사 하강법의 능력에 대하여"였으며, 이는 경사 기반 최적화 기술을 통해 신경망 훈련을 지배하는 이론적 원리를 조사했습니다. [1] [3]
Li는 최고 수준의 학술 장소에서 광범위한 출판 기록을 가진 머신러닝 분야의 다작 연구원으로서 경력을 쌓았습니다. 그의 초기 연구는 최적화, 강화 학습 및 행렬 분해의 이론적 토대에 중점을 두었습니다. 수많은 기술 보고서 및 연구 논문의 공동 저자를 기반으로 Li는 Microsoft Research의 연구원이었습니다. 재임 기간 동안 그는 더 큰 모델에 비해 더 적은 매개변수 수로 높은 성능을 달성하여 상당한 주목을 받은 소규모 언어 모델(SLM)인 Phi 시리즈 개발의 중심 인물이었습니다. 그는 phi-1.5, Phi-3 및 Phi-4에 대한 기술 보고서의 공동 저자로서 모델 기능에 대한 데이터 품질의 영향에 초점을 맞춘 연구 라인에 기여했습니다.
2025년 7월, Li가 Meta Platforms에 스카우트되어 인공지능 연구 부서에 합류했다는 보고가 있었습니다. 이 움직임은 Meta의 AI 연구 능력을 향상시키기 위한 더 광범위한 인재 확보 노력의 일환이었습니다. South China Morning Post의 보고서는 Li를 Meta의 Superintelligence Labs에 합류하는 여러 전문가 중 한 명으로 확인했습니다. [2] [1] [3] [4] [5]
Li의 연구는 머신러닝 및 이론 컴퓨터 과학 내의 광범위한 주제를 다룹니다. 그의 연구는 종종 최적화 역학, 일반화 및 특징 학습에 중점을 두고 딥 러닝 모델의 메커니즘, 기능 및 제한 사항에 대한 근본적인 질문에 답하려고 합니다. 그는 NeurIPS, ICML, ICLR, COLT, FOCS 및 STOC를 포함한 저명한 컨퍼런스 및 저널에 200편 이상의 논문을 발표했습니다. [1] [5]
Li의 연구의 상당 부분은 신경망의 이론적 속성에 전념합니다. 그는 특히 현대 딥 러닝에서 흔히 볼 수 있는 과매개변수화 모델의 맥락에서 확률적 경사 하강법(SGD) 및 Adam과 같은 최적화 알고리즘의 수렴 및 동작에 대한 기초 논문의 공동 저자입니다. 이 분야에서 그의 연구는 알고리즘의 암묵적 편향, 훈련 결과를 결정하는 초기화 및 학습률의 중요한 역할, 적대적 견고성 및 자기 지도 학습의 기본이 되는 메커니즘과 같은 개념을 탐구합니다. 딥 러닝 이론에 대한 그의 기여를 반영하는 주요 출판물로는 "과매개변수화를 통한 딥 러닝의 수렴 이론", "역방향 특징 수정: 딥 러닝이 딥(계층적) 학습을 수행하는 방법" 및 "신경망 훈련에서 초기 큰 학습률의 정규화 효과 설명"이 있습니다. [1] [5]
최근 몇 년 동안 Li는 대규모 언어 모델(LLM)의 원리와 창발적 능력에 초점을 맞추었습니다. 그는 모델의 고급 추론 및 문제 해결 능력을 분석하여 인공 일반 지능의 초기 징후를 제시한 영향력 있는 2023년 논문 "인공 일반 지능의 불꽃: GPT-4를 사용한 초기 실험"의 공동 저자입니다. 그는 또한 LLM이 지식을 저장하고, 정보를 조작하고, 복잡한 추론 작업을 수행하는 방법을 이해하기 위한 이론적 프레임워크를 구축하는 것을 목표로 하는 "언어 모델의 물리학" 시리즈 논문의 주요 저자입니다.
이 분야에 대한 그의 또 다른 중요한 기여는 "LoRA: 대규모 언어 모델의 저순위 적응" 논문입니다. 이 연구는 특정 다운스트림 작업에 대규모 사전 훈련된 모델을 적용하는 계산 비용을 획기적으로 줄이는 매개변수 효율적인 미세 조정 기술을 도입했습니다. LoRA는 이후 LLM의 실제 적용에서 널리 채택되고 표준적인 방법이 되었습니다. [1] [5] [6]
Microsoft Research에 있는 동안 Li는 소규모 언어 모델인 Phi 제품군을 개발한 팀의 핵심 멤버였습니다. 그는 "교과서가 전부입니다"(Phi-1의 배후 개념을 소개한), "교과서가 전부입니다 II: phi-1.5 기술 보고서", "Phi-3 기술 보고서" 및 "Phi-4 기술 보고서"에 대한 기술 보고서의 공동 저자로 등재되어 있습니다. 이 연구는 고품질의 "교과서와 같은" 데이터로 훈련된 모델이 추론 및 언어 이해 벤치마크에서 훨씬 더 큰 모델과 비슷하거나 심지어 능가하는 성능을 달성할 수 있음을 입증했습니다. 이 연구는 모델 기능이 주로 규모(즉, 매개변수 수)의 함수라는 일반적인 견해에 도전하고 훈련 데이터 품질 및 큐레이션의 중요한 중요성을 강조했습니다.
딥 러닝 이론 및 LLM에 대한 그의 연구 외에도 Li는 강화 학습, 생성 모델링 및 볼록 최적화를 포함한 머신러닝의 다른 영역에 기여했습니다. 이러한 영역에서 그의 연구에는 생성적 적대 신경망(GAN)에 대한 이론적 분석, 확산 모델에 대한 이론 개발 및 효율적인 밴딧 알고리즘 설계가 포함됩니다. 이러한 영역의 대표적인 논문으로는 "샘플링은 점수를 학습하는 것만큼 쉽습니다: 최소 데이터 가정으로 확산 모델에 대한 이론" 및 "강화 학습에서 샘플 복잡성의 Horizon-Dependence 해결"이 있습니다. [1] [5]
2023년 6월 6일, Cognitive Revolution 팟캐스트는 Microsoft Research의 Nathan Labenz, Ronen Eldan 및 Yuanzhi Li 간의 Tiny Stories 프로젝트에 대한 토론을 특집으로 다루었습니다. Li는 이 프로젝트가 GPT-4 및 GPT-3.5를 사용하여 생성된 약 150만 개의 어린이 이야기의 합성 데이터 세트를 포함한다고 설명했습니다. 이 데이터 세트는 약 2,000개의 간단한 단어의 제한된 어휘를 사용하며 GPT-2 크기의 약 2%를 나타내는 100만에서 3,300만 개의 매개변수 범위의 소규모 언어 모델 훈련을 가능하게 하도록 설계되었습니다.
Li에 따르면 이 프로젝트는 더 작은 모델 내에서 문법, 사실적 회상 및 기본 논리 연산과 같은 핵심 언어 능력 개발을 검토하기 위한 프레임워크를 제공합니다. 그는 모델 깊이가 추론 프로세스의 복잡성과 관련이 있는 반면 모델 너비는 사실 정보에 대한 메모리 용량과 연결되어 있다고 말했습니다. 모델의 주의 메커니즘은 토큰 간의 위치 관계에 초점을 맞춘 "거리 헤드"와 콘텐츠 관련성을 우선시하는 "의미 헤드"의 두 가지 주요 패턴을 나타내는 것으로 설명되었습니다.
Li는 또한 추론 작업이 대규모 자연어 데이터 세트에서 비교적 드물며 모델 용량에 대한 사실적 암기와 경쟁할 수 있다고 언급했습니다. 그는 Tiny Stories 데이터 세트를 사용하여 언어 및 추론 기술이 구조화된 방식으로 도입되는 커리큘럼 학습의 한 형태를 적용할 수 있다고 설명했습니다. 해석 가능성 측면에서 Li는 더 작은 모델이 뉴런 및 주의 헤드 기능을 더 명확하게 식별할 수 있는 반면 더 큰 모델은 기능을 더 많은 매개변수에 분산시켜 분석하기가 더 어렵다고 지적했습니다. 그는 모델의 실제 제어를 승마에 비유하여 효과적인 사용에는 내부 프로세스에 대한 완전한 이해가 필요하지 않다고 말했습니다.
이 토론에서는 Tiny Stories 프레임워크를 사용하여 계산적으로 제한된 조건에서 언어 모델의 동작, 추론 기능 및 해석 가능성을 연구하는 방법을 간략하게 설명했습니다. [7]