Yinghao Aaron Li 是一位人工智能研究科学家,以其在语音合成、语音转换和多模态大型语言模型方面的贡献而闻名。他目前是 Meta Superintelligence Labs 的研究科学家,并开发了几个著名的文本到语音(TTS)模型,包括 StyleTTS、StyleTTS 2 和 DMOSpeech 2。[1]
Li 在哥伦比亚大学完成了博士学业,获得了电气工程系的博士学位。他在哥伦比亚大学的研究重点是生成式语音建模,包括文本到语音合成和语音转换,师从 Nima Mesgarani 教授。在他的学术生涯中,他的作品发表在各种 IEEE 期刊上,并在著名的人工智能和计算语言学会议上发表。[2] [3] [10]
在攻读博士学位期间,Li 在 Adobe 实习,他的工作为 DMOSpeech 项目的开发做出了贡献。完成博士学位后,Li 于 2025 年宣布他将加入 Meta Superintelligence Labs 担任人工智能研究科学家。他在那里的工作重点是多模态大型语言模型。他的项目通常通过 GitHub 和 Hugging Face 等平台公开提供,其中 StyleTTS 2 等模型在开源社区中获得了 значительное 关注。
Li 的研究主要解决生成自然、多样化和高效的类人语音方面的挑战。他的工作涵盖基于风格的生成模型、零样本合成、指标优化 TTS 和集成口语对话系统。[1] [2] [3] [10] [11]
StyleTTS 是一种基于风格的文本到语音合成生成模型,旨在生成具有自然韵律变化和情感基调的语音。该模型直接从风格向量合成语音,风格向量是从参考语音信号中采样的潜在变量,无需显式韵律建模。这种方法允许从相同的文本输入生成不同的语音输出。[5]
在此基础上,开发了 StyleTTS 2,以朝着人类水平的 TTS 质量迈进。它将风格扩散和对抗训练与大型语音语言模型相结合。该模型通过增强合成语音的自然性和说话人相似性来改进其前身。该项目在开源社区中获得了相当大的关注,在 GitHub 上积累了超过 5,900 颗星,并构成了其他流行的 TTS 项目的基础。[6] [1]
StyleTTS-ZS 在 2025 年北美计算语言学协会(NAACL)会议上发表,是一种高效、高质量的零样本 TTS 模型。该模型解决了大规模 TTS 中的常见问题,例如推理速度慢和依赖复杂的神经编解码器表示。它引入了一种使用提炼的时变风格扩散的方法,以从短参考音频剪辑中捕获不同的说话人身份和韵律。
StyleTTS-ZS 的主要特点包括:
该模型被证明比当时其他最先进的大规模零样本 TTS 系统快 10 到 20 倍。[7]
DMOSpeech 2 代表了指标优化语音合成的进步,是 Li 在攻读博士学位期间的最后一个项目。它通过结合强化学习(RL)来优化持续时间预测器(以前未针对感知指标进行优化的组件)来扩展原始 DMOSpeech 的工作。该系统旨在为零样本 TTS 创建更完整的指标优化管道。
DMOSpeech 2 的核心创新是:
评估表明,与以前的系统相比,DMOSpeech 2 在所有指标上都实现了卓越的性能,并且只需 4-8 个步骤即可执行推理,从而在不降低质量的情况下将采样步骤减少了一半。[8] [1]
Style-Talker 是一个专为快速自然的口语对话生成而设计的框架,在 CoLM 2024 上发布。它解决了传统级联系统的延迟和韵律限制,这些系统将自动语音识别(ASR)、大型语言模型(LLM)和 TTS 模型链接在一起。Style-Talker 微调音频 LLM 和基于风格的 TTS 模型以协同工作。
该系统通过获取用户输入音频并使用转录的聊天记录和语音风格来生成响应的文本和说话风格来运行。在合成和播放响应的同时,系统并行处理下一轮的输入音频以提取其转录和风格。这种管道设计显着降低了延迟,并允许模型将来自输入语音的超语言信息合并到输出中,从而产生更自然和连贯的对话。实验表明,Style-Talker 比传统的级联和语音到语音基线模型快 50% 以上。[9]
Li 还为语音处理领域的其他几个项目做出了贡献。他的工作包括 PL-BERT,一种用于增强 TTS 韵律的音素级 BERT 模型;SLMGAN,它使用语音语言模型表示进行无监督零样本语音转换;以及对 Mamba 架构在语音相关任务中的检查,标题为 Speech Slytherin。这些项目进一步证明了他对提高生成式语音模型的效率、自然性和可控性的关注。[2]