Yu Zhang 是一位软件工程师和研究员,专注于机器学习、后端系统和人工智能,尤其关注语音处理技术。他目前是 Meta 超智能 团队的软件工程师,此前曾在 OpenAI 和 DeepMind 担任研究和工程职位。
Yu Zhang 是麻省理工学院 (MIT) 的研究生,也是计算机科学与人工智能实验室 (CSAIL) 的成员。在 CSAIL 中,他作为语音语言系统小组的一员,在 James Glass 博士的指导下进行研究。他的学术工作主要集中在机器学习模型在语音和语言处理挑战中的应用。在麻省理工学院期间,他还于 2009 年秋季担任统计学习课程的助教。 [1] [3]
Zhang 在麻省理工学院 CSAIL 开始了他的学术研究生涯,他的工作主要集中在机器学习在语音识别、说话人验证和语言识别中的应用。他积极参与 IARPA Babel 计划,这是一项旨在提高多语种语音识别能力的研究计划,特别是针对低资源语言。在此期间,他的研究探索了使用先进的深度学习架构,如深度神经网络和循环神经网络 (RNN),来解决语音处理中的复杂问题。具体来说,他的工作研究了诸如用于远场语音识别的长短期记忆 (LSTM)、用于改进声学建模的深度神经网络瓶颈特征提取,以及使用基于 i-vector 的方法来规范音频信号中说话人和环境的可变性等技术。
在学术界任职后,Zhang 过渡到科技行业,在几家领先的人工智能组织中担任职务。他曾在 DeepMind 担任高级研究员,后来在 OpenAI 担任技术人员 (MTS)。在这些职位上,他的工作转向开发和实施对支持大规模机器学习模型和基础设施至关重要的后端系统。2025 年 7 月,凭借大约十年的专业经验,Zhang 加入 Meta 担任软件工程师。他成为了该公司新成立的 超智能 团队的一员,该团队由来自人工智能行业的杰出研究人员和工程师组成,负责推进人工智能的基础研究。 [2] [1] [3]
在他的职业生涯中,Yu Zhang 曾与人合著了许多研究论文,这些论文已在主要的机器学习和信号处理会议上发表,包括国际声学、语音和信号处理会议 (ICASSP) 和 Interspeech。他的出版物反映了他对语音识别深度学习、特征提取和声学模型训练的研究。
他发表的部分作品包括:
在此期间,他的完整出版物列表突出了他通过新颖的机器学习技术为推进语音处理所做的贡献。 [1] [2] [3] [4] [5] [6]
2024 年 11 月 20 日,Yu Zhang 是由卡内基梅隆大学语言技术研究所 (LTI at CMU) 组织的 LTI 座谈会的特邀演讲嘉宾。他的演讲题为*“听到 AGI:从 GMM-HMM 到 GPT-4o”*,探讨了语音识别研究的历史发展和当前方向。
在他的演讲中,Zhang 概述了从早期的 Gaussian Mixture Model–Hidden Markov Model (GMM-HMM) 系统到基于自监督 Transformer 模型的大规模多模态架构的演变。他指出,该领域的进步不仅受到数据集和模型规模的扩展的推动,还受到计算资源扩展和克服系统级工程挑战的推动。
Zhang 认为,自监督学习在使模型能够利用大量未标记音频方面发挥了核心作用,这扩大了语音系统的容量和性能。他还观察到,语音处理比文本需要更多的计算能力,因为它必须解决其他因素,如背景噪声、静音和不同的声学条件。
Zhang 进一步讨论了从自动语音识别转向 多模态系统,该系统结合了语音、文本和视觉。他强调,类似于 GPT 风格语言模型中使用的下一令牌预测方法是这种转变的核心。他还指出,传统的指标(如词错误率 (WER))并不总是反映人类对质量的判断,这突出了开发更具代表性的评估方法的重要性。
在解决安全性和可靠性问题时,Zhang 评论说,语音模型可能会带来独特的风险,因为它们的输出在不正确时可能显得更具说服力。他认为对齐、基准测试和高效处理长上下文输入是持续的研究需求。他最后指出,语音与文本和视觉的集成可能会在多模态系统的发展及其对通用人工智能的潜在贡献中发挥重要作用,但强调进展取决于科学研究和实际工程解决方案。 [7]