Alexis Conneau
Alexis Conneau 是音频人工智能初创公司 WaveForms AI 的联合创始人兼首席执行官。他的职业生涯包括在 OpenAI、Google 和 Meta 等主要科技公司担任高级研究职位,在自然语言处理、跨语言建模和多模态人工智能领域做出了重大贡献,他最近加入了 Meta Superintelligence 团队。 [1] [2]
教育背景
Conneau 在 École Polytechnique 接受高等教育,完成了理学学士和应用数学硕士学位。他还通过获得 Math, Vision, and Learning (MVA) 项目(ENS Cachan 和 ENSAE 之间的联合项目)的视觉和机器学习硕士学位,进一步专攻。后来,他攻读博士学位,致力于在勒芒大学获得人工智能博士学位,预计将于 2019 年完成。在博士研究期间,他还曾在巴黎的 Facebook AI Research (FAIR) 担任常驻博士生。 [3] [4]
职业生涯
Conneau 的职业生涯始于机器学习方面的研究实习,首先是在对冲基金管理公司 Capital Fund Management 实习六个月(2014 年),然后在个性化重定向公司 Criteo 实习六个月(2015 年)。他在 Facebook AI Research (FAIR) 担任博士常驻研究员的工作标志着他进入了大规模工业研究领域,他专注于自然语言处理 (NLP) 的深度学习和可转移文本表示的开发。
2021 年 5 月,Conneau 宣布他已加入 Google AI Language 担任研究科学家。在这个职位上,他继续致力于构建能够以最少或没有监督进行学习的神经网络。2023 年 4 月,他搬到旧金山的 OpenAI,担任音频研究主管。在 OpenAI,他领导了 GPT-4o 和音频-视觉模型 (AVM) 项目的研究,在开发 GPT-4o 模型的原生音频理解能力方面发挥了关键作用,该模型于 2024 年 5 月发布。
2024 年 9 月,Conneau 离开 OpenAI,创立了自己的公司 WaveForms AI,并与 Coralie Lemaitre 共同担任该公司的首席执行官。这家初创公司专门使用人工智能来理解和复制音频中的情感,并成功地在一轮由 Andreessen Horowitz 领投的融资中筹集了 4000 万美元。在 2025 年 8 月的一项重大进展中,Meta Platforms 宣布收购 WaveForms AI。收购完成后,Conneau 和 Lemaitre 将加入 Meta 的 Superintelligence Labs,继续他们在高级人工智能研究方面的工作。 [2] [1] [3] [4] [5]
主要作品和研究
Conneau 的研究一直专注于提高神经网络的能力,尤其是在语言和语音领域。他的工作涵盖无监督学习、跨语言表示和多模态人工智能,其反复出现的主题是创建能够以有限的监督跨不同语言和数据类型有效地学习和操作的模型。他的主要研究兴趣包括自然语言理解、序列到序列学习、神经机器翻译和自监督学习。 [3]
跨语言语言模型 (XLM)
Conneau 在 Facebook AI Research 的大部分工作都致力于创建能够理解多种语言的语言模型。这项研究最终促成了跨语言语言模型 (XLM) 的开发。
- 初始模型: 在 2019 年的论文“跨语言语言模型预训练”中,Conneau 及其合作者介绍了在多语言文本语料库上预训练模型的方法。这项工作证明了在语言之间使用共享词汇和嵌入空间的有效性,使模型能够将知识从高资源语言转移到低资源语言。
- XLM-R: 随后的论文“大规模无监督跨语言表示学习”介绍了 XLM-RoBERTa (XLM-R),该模型在从 Common Crawl 数据集中提取的 100 种语言的 2.5 TB 文本上进行了预训练。XLM-R 在一系列跨语言基准测试中建立了新的最先进的结果,包括 Conneau 也共同开发的跨语言自然语言推理 (XNLI) 基准测试。2019 年 8 月,他的团队发布了在 100 种语言上训练的 XLM 模型的 PyTorch 版本,该版本明显优于以前的多语言模型。 [1] [3]
数据集和评估
Conneau 认识到需要高质量的数据和强大的评估方法,因此为 NLP 社区创建了几个关键资源。
- CC100 数据集: 为了训练 XLM-R 模型,Conneau 及其团队开发了 CCNet,这是一个从原始 Web 抓取数据中提取和清理高质量文本的管道。这产生了 CC100 数据集,该数据集于 2020 年 10 月公开发布,为研究人员提供了大量的多语言文本语料库。
- 评估工具包: 他是“SentEval:通用句子表示的评估工具包”(2018 年)的主要作者,该工具包提供了一个标准化框架,用于评估句子嵌入的质量。他还共同创建了 XNLI 数据集(“XNLI:评估跨语言句子表示”,2018 年),以衡量模型在 15 种不同语言中执行自然语言推理的能力。 [3] [1]
语音和多模态人工智能
Conneau 后来将他的研究从文本扩展到语音,将自监督和跨语言学习的原理应用于音频领域。
- 跨语言语音表示: 他的工作包括“用于语音识别的无监督跨语言表示学习”(2020 年),该论文介绍了 XLSR。该模型从多种语言的原始音频中学习跨语言语音表示,而无需转录。这后来在“XLS-R:大规模自监督跨语言语音表示学习”(2021 年)中进行了扩展。
- 统一语音-文本模型: 他为 SLAM 和 mSLAM 等项目做出了贡献,这些项目旨在为语音和文本创建统一的编码器,从而实现联合预训练并促进跨模态理解。
- GPT-4o 音频: 作为 OpenAI 的音频研究主管,Conneau 在开发 GPT-4o 实时处理和理解音频的能力方面发挥了重要作用。他将这项工作描述为使用户能够“与 Transformer 本身对话”,这标志着朝着更自然的人机交互迈出了重要一步。
- WaveForms AI: 他的初创公司 WaveForms AI 代表了他音频研究的延续,专注于理解和生成音频中情感的细微任务。这项工作被 Meta Platforms 收购,以增强其自身的人工智能音频功能。 [2] [1]
Meta 收购 WaveForms AI
2025 年 8 月,Meta Platforms, Inc. 收购了 WaveForms AI,该公司致力于开发用于分析和复制音频中情感特征的人工智能系统。WaveForms AI 由 Alexis Conneau(前 Meta 和 OpenAI 的音频研究员)和 Coralie Lemaitre(曾担任 Google 的广告策略师)于 2024 年 12 月创立。在收购之前,该公司获得了约 4000 万美元的风险投资,由 Andreessen Horowitz 领投,收购前估值接近 1.6 亿美元。
收购后,Conneau 和 Lemaitre 加入了 Meta 的人工智能研究部门,即 Superintelligence Labs。在收购 WaveForms AI 之前,Meta 于 2025 年 7 月收购了 PlayAI,这是其以音频为中心的人工智能公司组合的又一补充。
WaveForms AI 的研究重点是语音合成和分析,其项目旨在复制类人语音模式并开发能够识别和表达口语中情感线索的系统。这些努力包括一项“语音图灵测试”以及该公司称为“情感通用智能”的计划。Meta 将 WaveForms AI 集成到其平台中,是其在基于语音交互的人工智能系统方面更广泛工作的一部分。 [2] [6] [7]