Alec Radford 是一位美国人工智能研究员,因其对生成式人工智能(Generative AI)的奠基性贡献而闻名。他出生于 1993 年 4 月,是现代深度学习发展的核心人物,最著名的成就是在 OpenAI 工作期间开发了生成式预训练 Transformer(GPT)系列模型、对比语言-图像预训练(CLIP)以及深度卷积生成对抗网络(DCGANs)。他的工作在提升 Transformer 架构能力和多模态 AI 方面发挥了工具性作用。Radford 被深度学习先驱 Jeff Clune 称为“现代生成式 AI 之父”,并被 OpenAI 首席执行官 Sam Altman 赞誉为“爱因斯坦级别的天才”。[1] [2]
Alec Radford 出生于 1993 年 4 月,在德克萨斯州达拉斯-沃斯堡大都会区的郊区长大。他对技术的兴趣始于幼年;在父亲的帮助下,他在五岁时组装了自己的第一台电脑。2007 年至 2011 年,他就读于达拉斯地区一所竞争激烈且学术严谨的高中。在此期间,他是全美排名靠前的学术问答锦标赛选手、鹰级童军(Eagle Scout)、竞技跑步运动员,并担任学校获奖文学杂志的编辑。[1]
2011 年,Radford 进入欧林工程学院(Olin College)就读,这是一所以强调自主学习而闻名的小型工程院校。在大一期间,他遇到了两位未来的合作伙伴:Luke Metz(后来与他共同撰写了 DCGAN 论文)和 Slater Victoroff(他未来的 Indico 联合创始人)。2014 年 8 月,在即将升入大四之际,Radford 在 Indico 公司被 Techstars 加速器项目录取后选择退学,全身心投入工作。[1]
受 2012 年 AlexNet 深度学习模型突破的启发,Radford 与 Slater Victoroff 在欧林学院的宿舍里共同创立了数据科学公司 Indico。其他联合创始人还包括 Diana Yuan 和 Madison May。早期团队活跃于 Kaggle 数据科学竞赛,Radford 在公司负责开放式研究工作,随后在 2014 年左右担任研究主管。该公司在 2013 年春季获得了 Rough Draft 的初始种子资金,并于 2014 年 8 月入选 Techstars 波士顿加速器项目。到 2014 年底,Indico 已完成 300 万美元的种子轮融资。在未公开的具体日期,Radford 被描述为“突然且出人意料地”离开了公司。[1] [3]
2016 年,Radford 加入 OpenAI 担任研究科学家,随后成为高级研究员,并成为其研究团队中极具影响力的长期成员。[3] [4] 在任职期间,他是开发该机构许多最重要模型的关键人物,包括 GPT 系列语言模型、多模态模型 CLIP、文本生成图像工具 DALL-E 以及语音识别系统 Whisper。[2]
据报道,Radford 于 2024 年 12 月 19 日从 OpenAI 离职。当时,他表示打算从事独立研究,同时继续与 OpenAI 及其他 AI 开发者合作。[4] [2]
离开 OpenAI 后,Radford 担任了顾问职务。2025 年 4 月 8 日,据报道他已加入 Thinking Machines Lab,这是一家由前 OpenAI 首席技术官 Mira Murati 创立的新 AI 初创公司。他与另一位前 OpenAI 研究员 Bob McGrew 一同担任该公司的顾问。[2] [4]
Radford 的研究特点是动手实验风格,将计算机科学与创造性探索相结合。他的工作重点是使神经网络能够跨不同模态(包括文本、图像和音频)生成高保真、类人的内容。[2]
Radford 是生成对抗网络领域的早期创新者。2015 年,他作为第一作者发表了论文《使用深度卷积生成对抗网络进行无监督表示学习》(Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks),引入了 DCGANs。该架构显著提高了 GAN 训练的稳定性及其生成的图像质量,使其成为图像生成领域的奠基性技术。[4] [5]
他在 2015 年的早期实验引起了广泛关注。2015 年 7 月,他在 Twitter 上发布了被认为是史上第一张由 GAN 生成的图像。这项工作引起了 Facebook AI Research 研究人员的注意,其中包括 Soumith Chintala,他后来成为了 Radford 的导师及 DCGAN 论文的合著者。[1]
Radford 是 GPT 系列模型的核心架构师。OpenAI 首席执行官 Sam Altman 称赞他是“GPT-1 及其后续版本”的创造者,强调了他的奠基性作用。[6] 2018 年,Radford 作为第一作者发表了论文《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training),推出了首个 GPT 模型。这项工作确立了两阶段过程的范式——在海量文本语料库上进行无监督预训练,随后进行有监督微调——这成为了现代大语言模型(LLMs)的基础。[3]
他继续领导这一研究方向,作为第一作者发表了 2019 年的论文《语言模型是无监督的多任务学习者》(Language Models are Unsupervised Multitask Learners),推出了 GPT-2。该模型证明了大规模语言模型在无需特定任务训练的情况下即可执行广泛的任务,这种能力被称为“零样本”(zero-shot)学习。他也是其继任者 GPT-3 的关键贡献者。由于他在该技术上的贡献,Radford 也被认为是 ChatGPT 的发明者,这款聊天机器人在 2022 年 11 月发布后引起了主流公众的广泛关注。[4] [1]
Radford 是 OpenAI 开发连接文本和图像的多模态模型的关键人物。他是 CLIP(对比语言-图像预训练)的共同创造者和主要作者,该模型在 2021 年的一篇论文中被引入。CLIP 通过预测大型数据集中哪段说明对应哪张图片,直接从自然语言监督中学习视觉概念。这种方法在文本和图像之间建立了强大的联系,而无需像 ImageNet 那样手动策划和标记数据集。该模型在各种视觉任务上执行零样本分类的能力,使其成为后续多模态 AI 系统的基石。[1] [4]
基于 GPT 和 CLIP 的原理,Radford 也是创建 DALL-E(OpenAI 的文本生成图像工具)团队的合著者和关键研究员。DALL-E 展示了从简单的文本提示生成复杂且新颖图像的能力,展示了生成式模型的创造潜力。CLIP 和 DALL-E 的结合被认为是文本生成图像领域发展的关键时刻。[1] [3]
2022 年,Radford 领导开发了 Whisper,一个自动语音识别(ASR)系统。该模型在从网络收集的 68 万小时多语言和多任务监督数据上进行了训练。其结果是一个高度准确且鲁棒的转录系统,能够处理各种语言、口音和嘈杂环境。该模型及其代码已开源,使最先进的 ASR 技术能够被开发者和研究人员广泛使用。[4] [2]
除了在语言和视觉方面的工作外,Radford 还是 OpenAI 音乐生成模型 Jukebox 论文的合著者,进一步将其在生成式 AI 领域的工作扩展到了音频领域。[1]
2025 年 3 月,美国加利福尼亚北区联邦地区法院的一份法庭文件显示,Radford 在针对 OpenAI 的版权诉讼中收到了传票。这起名为“关于 OpenAI ChatGPT 诉讼”的案件由包括 Sarah Silverman、Michael Chabon 和 Paul Tremblay 在内的一群作家提起,他们指控 OpenAI 未经许可使用其受版权保护的作品来训练 AI 模型。作为 GPT 模型的关键架构师,Radford 被传唤提供证词并提交与其工作及用于训练模型的数据相关的文档。[7]