정형원 (한국어: 정형원)은 대규모 언어 모델(LLM) 개발 및 확장에 기여한 공로로 인정받는 대한민국 인공지능 연구 과학자입니다. 현재 Meta Superintelligence Labs의 일원이며 OpenAI 및 Google Brain에서 연구직을 맡아 PaLM, Flan-T5, T5X 및 OpenAI의 o1과 같은 주요 모델 및 프레임워크에 기여했습니다. [1][2]
초기 생애
정형원은 대한민국 출신입니다. 현재 기술 산업의 핵심 허브인 캘리포니아주 마운틴 뷰에 거주하고 있습니다. [1]
교육
정형원은 매사추세츠 공과대학교(MIT)에서 박사 학위를 취득했습니다. 그의 학문적 배경은 머신 러닝 및 인공지능 분야에서 그의 후속 연구 경력의 토대를 제공했습니다. [2]
경력
정형원은 Google Brain에서 연구 과학자로 산업 경력을 시작했으며, 그의 연구는 대규모 AI 모델 확장에 관련된 문제 해결에 중점을 두었습니다. 그는 모델의 대규모 학습을 용이하게 하도록 설계된 JAX 기반 프레임워크인 T5X의 핵심 기여자였으며 Pathways Language Model(PaLM)과 같은 주요 모델 학습에 참여했습니다. 그의 연구는 또한 명령어 미세 조정 분야를 크게 발전시켜 LLM이 사용자 명령을 따르는 능력을 향상시킨 Flan-PaLM 및 Flan-T5 모델 제품군 개발로 이어졌습니다. [1]
2023년 2월, 정형원은 OpenAI로 이직했습니다. OpenAI에서 그의 연구는 AI 시스템의 추론 능력 향상과 자율 에이전트 개발에 초점을 맞췄습니다. 그는 o1-preview(2024년 9월), 전체 o1 모델(2024년 12월) 및 Deep Research 프로젝트(2025년 2월)를 포함한 조직의 주요 이니셔티브에 대한 기초적인 기여자였습니다. 이 기간 동안 그는 코드 생성 모델의 더 작고 전문화된 버전인 Codex 미니 모델에 대한 학습 노력도 주도했습니다. [1][2]
2025년 7월, 정형원은 AI 연구 과학자로 Meta의 Superintelligence Labs에 합류했습니다. 그는 Google과 OpenAI 모두에서 긴밀한 협력 관계를 맺었던 동료 Jason Wei와 함께 OpenAI에서 이직했습니다. [4][5]
주요 작품 및 출판물
정형원은 머신 러닝 및 자연어 처리 분야에서 수많은 영향력 있는 논문을 공동 저술했습니다. 그의 연구는 최고 수준의 저널에 게재되었고 주요 컨퍼런스에서 발표되었습니다.
Scaling Instruction-Finetuned Language Models (2022): Journal of Machine Learning Research에 게재된 이 논문은 모델 크기, 작업 수, 연쇄 사고 데이터 등 모델 개발의 다양한 측면을 확장하는 것이 성능에 미치는 영향을 체계적으로 탐구했습니다. 이 연구는 명령어 튜닝을 통해 상당한 개선을 입증했으며 Flan-T5 모델 출시로 이어졌습니다.
PaLM: Scaling Language Modeling with Pathways (2022): 공동 저자로서 정형원은 5,400억 개의 매개변수 Pathways Language Model(PaLM) 개발에 기여했습니다. 이 논문은 Pathways 시스템에서 학습된 모델이 수많은 언어 작업에서 최첨단 소량 샷 성능을 달성하여 추론, 코드 생성 및 번역에서 획기적인 발전을 보여주는 방법을 자세히 설명했습니다.
Scaling Up Models and Data with t5x and seqio (2022): 이 연구는 대규모 Transformer 모델의 고성능 학습을 위한 모듈식 JAX 기반 프레임워크인 T5X와 데이터 전처리를 위한 작업 기반 라이브러리인 SeqIO를 소개했습니다. 정형원은 이 논문의 주요 저자였으며 Google의 대규모 모델 연구의 많은 부분을 위한 인프라를 제공했습니다.
OpenAI o1 System Card (2024): 정형원은 OpenAI의 o1 모델에 대한 공식 시스템 카드에 기여했습니다. 이 문서는 모델의 기능, 성능 벤치마크, 제한 사항 및 개발 중에 구현된 안전 프로토콜에 대한 포괄적인 개요를 제공합니다.
GPT-4 Technical Report (2023): 그는 GPT-4에 대한 기술 보고서를 작성한 팀의 일원이었습니다. 이 보고서는 멀티모달 모델의 아키텍처, 학습 프로세스 및 광범위한 전문 및 학술 벤치마크에서 이전 세대보다 실질적으로 향상된 성능을 자세히 설명했습니다.
Large Language Models Encode Clinical Knowledge (2023): Nature에 게재된 이 연구는 의료 영역에서 LLM의 잠재력을 조사했습니다. 이 연구는 Flan-PaLM과 같은 모델이 의료 역량 시험에서 높은 정확도를 달성하고 임상 질문에 대한 일관성 있고 긴 형식의 답변을 제공할 수 있음을 발견했습니다.
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning (2023): International Conference on Machine Learning(ICML)에서 발표된 이 논문은 명령어로 형식이 지정된 대규모 작업 데이터 세트인 "Flan Collection"의 생성 및 설계를 설명했습니다. 이 연구는 명령어 튜닝을 확장하는 데 사용된 방법을 자세히 설명했으며 Flan-T5 모델의 기초가 되었습니다.
UniMax: Fairer and more Effective Language Sampling for Large-Scale Multilingual Pretraining (2023): International Conference on Learning Representations(ICLR)에서 발표된 이 논문은 다양한 언어 간의 데이터 표현 균형을 통해 다국어 언어 모델의 성능과 공정성을 향상시키기 위한 새로운 데이터 샘플링 방법을 제안했습니다.
이러한 출판물은 모델 확장, 명령어 튜닝 및 대규모 언어 모델의 실제 적용에 대한 정형원의 초점을 강조합니다. [1]
공개 강연 및 강의
정형원은 대학에서 초청 강연 및 세미나를 통해 더 넓은 학술 및 기술 커뮤니티와 자신의 연구 및 통찰력을 자주 공유합니다. 그의 발표는 대규모 언어 모델의 진화, 명령어 미세 조정 원리, 인간 피드백을 통한 강화 학습(RLHF) 및 AI 연구의 패러다임 전환에 대한 높은 수준의 관점과 같은 주제를 다룹니다. 그는 다음을 포함한 기관에서 강연을 했습니다.
스탠포드 대학교(CS 25 과정)
매사추세츠 공과대학교(MIT Embodied Intelligence 세미나)
서울대학교
뉴욕 대학교(CSCI 2590 과정)
코넬 대학교
이러한 강의는 종종 공개적으로 제공되며 해당 분야의 학생 및 연구자를 위한 교육 자료 역할을 합니다. [1][3]