Yu Zhang 是一位软件工程师和研究员, специализирующийся в области машинного обучения, бэкенд-систем и искусственного интеллекта, с акцентом на технологии обработки речи. 他目前是Meta超智能团队的软件工程师,此前曾在OpenAI和DeepMind担任研究和工程职位。
Yu Zhang是麻省理工学院 (MIT) 的研究生,他是计算机科学与人工智能实验室 (CSAIL) 的成员。在CSAIL内,他作为口语系统小组的一员,在James Glass博士的指导下进行研究。他的学术工作主要集中在机器学习模型在语音和语言处理挑战中的应用。在麻省理工学院期间,2009年秋季,他还担任了统计学习课程的助教。 [1] [3]
Zhang在麻省理工学院CSAIL开始了学术研究生涯,他的工作主要集中在机器学习在语音识别、说话人验证和语言识别方面的应用。他积极参与IARPA Babel项目,这是一项旨在提高多语种语音识别能力的研究计划,特别是针对低资源语言。在此期间,他的研究探索了先进的深度学习架构,如深度神经网络和循环神经网络 (RNN),以解决语音处理中的复杂问题。具体来说,他的工作研究了诸如用于远距离语音识别的长短期记忆 (LSTM) 等技术、用于改进声学建模的深度神经网络瓶颈特征的提取,以及使用基于i-vector的方法来规范音频信号中说话人和环境的可变性。
在学术界任职后,Zhang转型到科技行业,在几家领先的人工智能组织担任职务。他曾在DeepMind担任高级研究员,后来在OpenAI担任技术人员 (MTS)。在这些职位上,他的工作转向开发和实施对支持大规模机器学习模型和基础设施至关重要的后端系统。2025年7月,拥有约十年专业经验的Zhang加入Meta,担任软件工程师。他成为了该公司新成立的超智能团队的一员,该团队由来自人工智能行业各个领域的杰出研究人员和工程师组成,负责推进人工智能的基础研究。 [2] [1] [3]
在他的职业生涯中,Yu Zhang合作撰写了许多研究论文,这些论文已在主要的机器学习和信号处理会议上发表,包括国际声学、语音和信号处理会议 (ICASSP) 和 Interspeech。他的出版物反映了他关于深度学习在语音识别、特征提取和声学模型训练方面的工作。
他的部分已发表作品包括:
他在此期间的完整出版物列表突出了他对通过新颖的机器学习技术推进语音处理的贡献。 [1] [2] [3] [4] [5] [6]
2024年11月20日,Yu Zhang是卡内基梅隆大学语言技术研究所(CMU的LTI)组织的LTI座谈会的特邀演讲嘉宾。他的演讲题为“聆听AGI:从GMM-HMM到GPT-4o”,探讨了语音识别研究的历史发展和当前方向。
在他的演讲中,Zhang概述了从早期的Gaussian Mixture Model–Hidden Markov Model (GMM-HMM) 系统到基于自监督transformer模型的大规模多模态架构的演变。他指出,该领域的进步不仅受到数据集和模型规模的扩展的推动,还受到计算资源的扩展以及克服系统级工程挑战的推动。
Zhang认为,自监督学习在使模型能够利用大量未标记音频方面发挥了核心作用,这扩大了语音系统的容量和性能。他还观察到,语音处理比文本需要更多的计算能力,因为它必须解决其他因素,如背景噪声、静音和不同的声学条件。
Zhang进一步讨论了从自动语音识别向****多模态系统****的转变,这些系统结合了语音、文本和视觉。他强调,类似于GPT风格语言模型中使用的next-token预测方法是这种转变的核心。他还指出,传统的指标,如词错误率 (WER) 并不总是反映人类对质量的判断,突出了开发更具代表性的评估方法的重要性。
在解决安全性和可靠性问题时,Zhang评论说,语音模型可能会带来独特的风险,因为它们的输出在不正确时可能显得更具说服力。他认为对齐、基准测试和有效处理长上下文输入是持续的研究需求。他最后指出,语音与文本和视觉的集成可能会在多模态系统的发展及其对通用人工智能的潜在贡献中发挥重要作用,但强调进步取决于科学研究和实际工程解决方案。 [7]