Yu Zhang

Yu Zhang 是一位软件工程师和研究员，专注于机器学习、后端系统和人工智能，尤其关注语音处理技术。他目前是 Meta 超智能团队的软件工程师，此前曾在 OpenAI 和 DeepMind 担任研究和工程职位。

教育背景

Yu Zhang 是麻省理工学院 (MIT) 的研究生，也是计算机科学与人工智能实验室 (CSAIL) 的成员。在 CSAIL 中，他作为语音语言系统小组的一员，在 James Glass 博士的指导下进行研究。他的学术工作主要集中在机器学习模型在语音和语言处理挑战中的应用。在麻省理工学院期间，他还于 2009 年秋季担任统计学习课程的助教。 ^[1] ^[3]

职业生涯

Zhang 在麻省理工学院 CSAIL 开始了他的学术研究生涯，他的工作主要集中在机器学习在语音识别、说话人验证和语言识别中的应用。他积极参与 IARPA Babel 计划，这是一项旨在提高多语种语音识别能力的研究计划，特别是针对低资源语言。在此期间，他的研究探索了使用先进的深度学习架构，如深度神经网络和循环神经网络 (RNN)，来解决语音处理中的复杂问题。具体来说，他的工作研究了诸如用于远场语音识别的长短期记忆 (LSTM)、用于改进声学建模的深度神经网络瓶颈特征提取，以及使用基于 i-vector 的方法来规范音频信号中说话人和环境的可变性等技术。

在学术界任职后，Zhang 过渡到科技行业，在几家领先的人工智能组织中担任职务。他曾在 DeepMind 担任高级研究员，后来在 OpenAI 担任技术人员 (MTS)。在这些职位上，他的工作转向开发和实施对支持大规模机器学习模型和基础设施至关重要的后端系统。2025 年 7 月，凭借大约十年的专业经验，Zhang 加入 Meta 担任软件工程师。他成为了该公司新成立的超智能团队的一员，该团队由来自人工智能行业的杰出研究人员和工程师组成，负责推进人工智能的基础研究。 ^[2] ^[1] ^[3]

主要作品和出版物

在他的职业生涯中，Yu Zhang 曾与人合著了许多研究论文，这些论文已在主要的机器学习和信号处理会议上发表，包括国际声学、语音和信号处理会议 (ICASSP) 和 Interspeech。他的出版物反映了他对语音识别深度学习、特征提取和声学模型训练的研究。

他发表的部分作品包括：

“用于远场语音识别的高速公路长短期记忆 RNN” (2015)： 本文研究了高速公路 LSTM 网络（一种循环神经网络的变体）的应用，以提高从远处捕获音频时语音识别系统的准确性。
“用于低资源语言语音识别的预测-适应-校正循环神经网络” (2015)： 这项工作介绍了一种专门的 RNN 架构，旨在提高训练数据有限的语言的语音识别性能。
“基于语言 ID 的多语言堆叠瓶颈特征训练” (2014)： 这项研究探索了一种通过使用语言识别来告知从深度神经网络中提取堆叠瓶颈特征来训练多语言声学模型的方法。
“使用低秩矩阵分解提取深度神经网络瓶颈特征” (2014)： 本文提出了一种通过应用低秩矩阵分解从深度神经网络中提取紧凑、信息丰富的瓶颈特征的有效方法。
“用于 ASR 的语音单元和单词发音的联合学习” (2013)： 本文重点介绍了一种同时学习语音单元及其相应单词发音的方法，以提高自动语音识别 (ASR) 系统的性能。
“一种新的 i-vector 方法及其在基于不相关可变性归一化的声学模型训练中的应用” (2011)： 这项工作介绍了一种使用 i-vector（音频段的低维表示）的新方法，以归一化声学模型训练中诸如说话人特征和信道噪声之类的可变性。
“用于连续密度隐马尔可夫模型贝叶斯学习的证据框架” (2009)： 这项早期工作提出了一个贝叶斯框架，用于学习隐马尔可夫模型 (HMM) 的参数，HMM 是语音识别中使用的一种基本统计模型。

在此期间，他的完整出版物列表突出了他通过新颖的机器学习技术为推进语音处理所做的贡献。 ^[1] ^[2] ^[3] ^[4] ^[5] ^[6]

访谈

卡内基梅隆大学 LTI 座谈会 #01

2024 年 11 月 20 日，Yu Zhang 是由卡内基梅隆大学语言技术研究所 (LTI at CMU) 组织的 LTI 座谈会的特邀演讲嘉宾。他的演讲题为*“听到 AGI：从 GMM-HMM 到 GPT-4o”*，探讨了语音识别研究的历史发展和当前方向。

在他的演讲中，Zhang 概述了从早期的 Gaussian Mixture Model–Hidden Markov Model (GMM-HMM) 系统到基于自监督 Transformer 模型的大规模多模态架构的演变。他指出，该领域的进步不仅受到数据集和模型规模的扩展的推动，还受到计算资源扩展和克服系统级工程挑战的推动。

Zhang 认为，自监督学习在使模型能够利用大量未标记音频方面发挥了核心作用，这扩大了语音系统的容量和性能。他还观察到，语音处理比文本需要更多的计算能力，因为它必须解决其他因素，如背景噪声、静音和不同的声学条件。

Zhang 进一步讨论了从自动语音识别转向 多模态系统，该系统结合了语音、文本和视觉。他强调，类似于 GPT 风格语言模型中使用的下一令牌预测方法是这种转变的核心。他还指出，传统的指标（如词错误率 (WER)）并不总是反映人类对质量的判断，这突出了开发更具代表性的评估方法的重要性。

在解决安全性和可靠性问题时，Zhang 评论说，语音模型可能会带来独特的风险，因为它们的输出在不正确时可能显得更具说服力。他认为对齐、基准测试和高效处理长上下文输入是持续的研究需求。他最后指出，语音与文本和视觉的集成可能会在多模态系统的发展及其对通用人工智能的潜在贡献中发挥重要作用，但强调进展取决于科学研究和实际工程解决方案。 ^[7]

订阅 wiki

Share wiki

Bookmark

Wiki Details

个人简介