Łukasz Kaiser는 데이터 처리 회사인 Pathway의 공동 창립자입니다. 그의 경력에는 Google Brain과 OpenAI에서의 선임 연구 역할이 포함됩니다. 그는 대부분의 현대 대규모 언어 모델의 기반이 되는 Transformer 딥 러닝 아키텍처를 소개한 2017년 논문 "Attention Is All You Need"의 주요 공동 저자입니다. [1] [2]
Kaiser는 폴란드 브로츠와프 대학교에서 컴퓨터 과학 및 수학 석사 학위를 각각 2004년과 2001년에 취득했습니다. [3] [4] 그 후 독일 RWTH 아헨 대학교에서 박사 과정을 밟아 2008년에 컴퓨터 과학 박사 학위를 받았습니다. [5] [6] 그의 박사 논문은 자동 구조에 대한 논리 및 게임으로, 알고리즘 모델 이론에 중점을 두었습니다. [7] [3] 그는 나중에 2013년 파리 디드로 대학교에서 컴퓨터 과학 하빌리타치온(HDR)을 취득했으며, 논문 제목은 "순위가 매겨지지 않은 데이터에 대한 논리 및 오토마타"였습니다. [8]
Kaiser는 이론 컴퓨터 과학, 논리 및 오토마타 이론에 중점을 두고 학계에서 경력을 시작했습니다. [9] 박사 학위를 마친 후 RWTH 아헨 대학교와 파리 디드로 대학교와 제휴한 연구소인 LIAFA에서 박사후 연구원으로 근무했습니다. [2] 2010년 말, 그는 파리 디드로 대학교에 기반을 둔 프랑스 국립 과학 연구 센터(CNRS)의 연구 책임자(정규 연구 과학자)가 되었습니다. [6] [7] 2013년, Kaiser는 학계를 떠나 딥 러닝 작업을 위해 캘리포니아 마운틴뷰에 있는 Google Brain 팀에 합류했습니다. [7] 그는 나중에 이론 컴퓨터 과학에 비해 딥 러닝의 빠른 변화 속도에 대해 언급했습니다. [7]
2013년 8월부터 2021년 4월까지 Google Brain에서 거의 8년 동안 근무하는 동안 Kaiser는 Staff Research Scientist로 승진했으며 회사의 가장 중요한 AI 프로젝트에 핵심적인 기여자가 되었습니다. [1] 그는 Google의 오픈 소스 머신 러닝 프레임워크인 TensorFlow 개발에 중요한 역할을 했습니다. [6] 주의 집중 메커니즘에 대한 그의 연구는 Google 번역을 지원하는 Google Neural Machine Translation(GNMT) 시스템의 핵심 구성 요소였습니다. [6]
2017년에는 Transformer 아키텍처를 소개한 논문 "Attention Is All You Need"를 공동 저술했습니다. 같은 해에 그는 딥 러닝 연구에 더 쉽게 접근할 수 있도록 설계된 오픈 소스 라이브러리인 Tensor2Tensor(T2T)를 공동으로 만들고 개발을 주도했으며, 여기에는 Transformer 모델의 참조 구현이 포함되었습니다. [1] 그는 또한 메모리 사용량을 줄여 긴 시퀀스를 처리하도록 설계된 Transformer의 효율적인 변형인 Reformer 모델을 공동 저술했습니다. [4]
Kaiser는 2021년 4월에 OpenAI에 연구원으로 합류했습니다. [1] OpenAI에서 그는 GPT-4 및 Codex와 같은 모델 개발에 기여했습니다. [5] 그는 나중에 2024년 9월에 출시된 OpenAI o1 모델 시리즈의 연구 책임자로 근무했습니다. [10]
연구 경력과 동시에 Kaiser는 2020년 1월에 기술 회사인 Pathway를 공동 설립하여 최고 과학자로 재직하고 있습니다. [1] Pathway는 스트림 및 배치 데이터 처리를 통합하여 실시간 머신 러닝 애플리케이션을 가능하게 하는 반응형 데이터 처리 프레임워크를 개발합니다. 이 회사의 목표는 새로운 데이터가 도착함에 따라 AI 시스템이 자동으로 업데이트되도록 하여 라이브 데이터에 대한 짧은 대기 시간 응답이 필요한 애플리케이션을 용이하게 하는 것입니다. [11]
Kaiser는 Transformer를 소개한 2017년 논문 "Attention Is All You Need"의 8명의 공동 저자 중 한 명입니다. 이 모델 아키텍처는 순환(RNN) 및 컨볼루션(CNN) 레이어를 없애고 전적으로 자체 주의 집중 메커니즘에 의존하여 시퀀스 처리에서 중요한 변화를 나타냈습니다. [2] 자체 주의 집중을 통해 모델은 입력 시퀀스에서 다양한 단어의 중요성을 평가하여 컨텍스트를 더 잘 이해할 수 있습니다. 이 설계를 통해 훈련 중 더 큰 병렬화가 가능해져 대규모 언어 모델을 훈련하는 데 사용되는 대규모 데이터 세트에 매우 효과적입니다. Transformer는 이후 BERT 및 GPT 시리즈를 포함하여 대부분의 최첨단 NLP 모델의 기본 아키텍처가 되었습니다. [1]
이 논문의 다른 공동 저자는 Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez 및 Illia Polosukhin입니다. [10]
Google에 있는 동안 Kaiser는 머신 러닝 모델을 구축하고 배포하는 데 표준 도구가 된 TensorFlow 프레임워크의 주요 저자이자 핵심 기여자였습니다. [8] [6] 연구를 가속화하고 접근성을 개선하기 위해 그는 딥 러닝 모델 및 데이터 세트의 오픈 소스 라이브러리인 Tensor2Tensor(T2T) 생성을 주도했습니다. [2] T2T는 연구자가 최첨단 모델에 대해 새로운 아이디어를 더 쉽게 테스트할 수 있도록 설계되었으며 Transformer 모델 코드의 초기 공개 리포지토리 역할을 하여 빠른 채택에 기여했습니다. [8]
OpenAI에서 Kaiser는 2024년 9월에 출시되면서 AI의 "새로운 패러다임"이라고 설명한 o1 모델 시리즈의 연구 책임자였습니다. [10] 그에 따르면 이러한 모델은 응답을 제공하기 전에 더 많은 계산 노력을 기울여 생각할 수 있도록 하는 내부 추론 프로세스인 "숨겨진 CoT"(Chain of Thoughts)를 사용하도록 설계되었습니다. 그는 이 접근 방식을 통해 모델이 이전 아키텍처에 비해 더 적은 데이터에서 학습하고, 더 잘 일반화하고, 대략적인 추론 형태에 참여할 수 있다고 말했습니다. [10] 2024년 12월, 그는 o3 모델의 초기 평가 릴리스에 대해 논평하면서 추론 벤치마크에서 고급 기능을 언급했습니다. [10]
Kaiser는 박사 논문으로 논리, 언어 및 정보 분야에서 뛰어난 논문에 수여되는 2009년 E.W. Beth Dissertation Prize를 수상했습니다. [6] [7]
2024년 10월, Kaiser와 "Attention Is All You Need"의 7명의 공동 저자는 Transformer 모델 개발에 대한 기여로 2024년 NEC C&C Prize를 수상했습니다. [10]
2025년 말 현재 Kaiser의 연구는 Google Scholar 프로필에 따르면 425,000번 이상 인용되었습니다. 논문 "Attention Is All You Need"는 현대 컴퓨터 과학에서 가장 많이 인용된 논문 중 하나이며 100,000번 이상 인용되었습니다. [2]
Kaiser는 AI 컨퍼런스에서 활발한 연사이며 AI 연구의 장기적인 방향에 대한 자신의 관점을 공유했습니다. 그는 언어, 시각 및 오디오와 같은 여러 양식에서 작업을 수행할 수 있는 단일한 보편적 모델을 만드는 비전을 제시했습니다. 한 인터뷰에서 그는 "꿈은 언젠가 하나의 모델이 있고, 그 하나의 모델이 훌륭한 프로그래머가 되고, 훌륭한 대화 에이전트가 되고, 시각을 수행하고, 언어를 수행하는 방법을 배우게 될 것이라는 것입니다."라고 말했습니다. [8] 이 철학은 또한 2017년 논문 "One Model To Learn Them All"에 대한 그의 작업을 안내했습니다. [7]
2023년 11월 OpenAI 리더십 위기 동안 그는 "OpenAI는 그 사람들 없이는 아무것도 아닙니다."라는 성명을 포함하여 회사의 팀에 대한 지지 메시지를 공개적으로 게시했습니다. [10]
2024년과 2025년 Pathway Meetup 및 Pi School과 같은 공개 강연에서 Kaiser는 딥 러닝의 진화에 대해 논의했습니다. 그는 신경망이 기존 번역 시스템과 일치하도록 하는 것이 주요 돌파구였던 2014년의 분야 상태와 GPT-4와 같은 모델이 전문 교육 없이도 광범위한 NLP 작업을 수행할 수 있는 현재 상태를 대조했습니다. [5] 앞으로 그는 "임박한 데이터 부족"을 주요 과제로 강조하고 미래의 성능 향상은 개인 및 조직 지식 그래프에서 검색된 더 적은 수의 고품질 데이터 포인트를 기반으로 훈련함으로써 얻을 수 있다고 이론화했습니다. [11]