Yu Zhang은 머신 러닝, 백엔드 시스템 및 인공 지능을 전문으로 하는 소프트웨어 엔지니어이자 연구원이며, 특히 음성 처리 기술에 중점을 둡니다. 현재 Meta의 초지능 팀의 소프트웨어 엔지니어로 근무하고 있으며, 이전에는 OpenAI와 DeepMind에서 연구 및 엔지니어링 직책을 맡았습니다.
Yu Zhang은 매사추세츠 공과대학교(MIT)의 대학원생으로, 컴퓨터 과학 및 인공 지능 연구소(CSAIL)의 회원이었습니다. CSAIL 내에서 그는 제임스 글래스 박사의 지도하에 음성 언어 시스템 그룹의 일원으로 연구를 수행했습니다. 그의 학문적 연구는 음성 및 언어 처리의 문제에 대한 머신 러닝 모델의 적용에 중점을 두었습니다. MIT 재학 중 2009년 가을에는 통계 학습 강좌의 조교로도 활동했습니다. [1] [3]
Zhang은 MIT CSAIL에서 학문적 연구를 시작했으며, 그의 연구는 주로 음성 인식, 화자 검증 및 언어 식별을 위한 머신 러닝 응용 프로그램에 중점을 두었습니다. 그는 다국어 음성 인식 기능, 특히 저자원 언어에 대한 기능을 향상시키는 것을 목표로 하는 연구 이니셔티브인 IARPA Babel 프로그램에 적극적으로 참여했습니다. 이 기간 동안 그의 연구는 음성 처리의 복잡한 문제를 해결하기 위해 심층 신경망 및 순환 신경망(RNN)과 같은 고급 딥 러닝 아키텍처의 사용을 탐구했습니다. 특히, 그의 연구는 원거리 음성 인식을 위한 장단기 기억(LSTM)과 같은 기술, 향상된 음향 모델링을 위한 딥 뉴럴 네트워크 병목 기능 추출, 오디오 신호에서 화자 및 환경 가변성을 정규화하기 위한 i-벡터 기반 접근 방식의 사용을 조사했습니다.
학계에서 근무한 후 Zhang은 기술 산업으로 전환하여 여러 주요 인공 지능 조직에서 역할을 수행했습니다. 그는 DeepMind에서 스태프 연구원으로, 나중에는 OpenAI에서 기술 스태프(MTS)의 일원으로 근무했습니다. 이러한 직책에서 그의 업무는 대규모 머신 러닝 모델 및 인프라를 지원하는 데 필수적인 백엔드 시스템의 개발 및 구현으로 전환되었습니다. 2025년 7월, 약 10년의 전문 경력을 바탕으로 Zhang은 Meta에 소프트웨어 엔지니어로 합류했습니다. 그는 인공 지능 분야의 기초 연구를 발전시키는 임무를 맡은 AI 산업 전반의 저명한 연구원 및 엔지니어로 구성된 회사에서 새로 구성된 초지능 팀의 일원이 되었습니다. [2] [1] [3]
Yu Zhang은 그의 경력 전반에 걸쳐 음향, 음성 및 신호 처리 국제 회의(ICASSP) 및 Interspeech를 포함한 주요 머신 러닝 및 신호 처리 회의에서 발표된 수많은 연구 논문을 공동 저술했습니다. 그의 출판물은 음성 인식을 위한 딥 러닝, 특징 추출 및 음향 모델 훈련에 대한 그의 연구를 반영합니다.
그의 출판된 작품 중 일부는 다음과 같습니다.
이 기간 동안 그의 출판물 전체 목록은 새로운 머신 러닝 기술을 통해 음성 처리 발전에 대한 그의 기여를 강조합니다. [1] [2] [3] [4] [5] [6]
2024년 11월 20일, Yu Zhang은 *카네기 멜론 대학교 언어 기술 연구소(CMU의 LTI)*에서 주최한 LTI 콜로키움의 주요 연사였습니다. 그의 발표 제목은 *“AGI 듣기: GMM-HMM에서 GPT-4o까지”*였으며, 음성 인식 연구의 역사적 발전과 현재 방향을 조사했습니다.
그의 강연에서 Zhang은 초기 가우스 혼합 모델–숨겨진 마르코프 모델(GMM-HMM) 시스템에서 자체 지도 변환기 모델을 기반으로 한 대규모 다중 모드 아키텍처로의 진행 과정을 설명했습니다. 그는 이 분야의 발전이 데이터 세트 및 모델 크기의 확장뿐만 아니라 컴퓨팅 리소스의 확장과 시스템 수준 엔지니어링 문제의 극복에 의해 주도되었다고 언급했습니다.
Zhang에 따르면 자체 지도 학습은 모델이 대량의 레이블이 지정되지 않은 오디오를 활용할 수 있도록 하는 데 중심적인 역할을 수행했으며, 이는 음성 시스템의 용량과 성능을 확장했습니다. 그는 또한 음성 처리가 배경 소음, 침묵 및 다양한 음향 조건과 같은 추가 요소를 해결해야 하므로 텍스트보다 훨씬 더 많은 컴퓨팅 성능이 필요하다고 관찰했습니다.
Zhang은 또한 자동 음성 인식에서 음성, 텍스트 및 비전을 결합한 ****다중 모드 시스템****으로의 전환에 대해 논의했습니다. 그는 GPT 스타일 언어 모델에서 사용되는 것과 유사한 다음 토큰 예측 접근 방식이 이러한 전환의 중심이라고 강조했습니다. 그는 또한 *단어 오류율(WER)*과 같은 기존 메트릭이 품질에 대한 인간의 판단을 항상 반영하는 것은 아니며, 보다 대표적인 평가 방법을 개발하는 것이 중요하다고 지적했습니다.
안전 및 신뢰성을 다루면서 Zhang은 음성 모델이 출력이 잘못되었을 때 더 설득력 있게 보일 수 있으므로 고유한 위험을 초래할 수 있다고 언급했습니다. 그는 정렬, 벤치마킹 및 긴 컨텍스트 입력의 효율적인 처리를 지속적인 연구 요구 사항으로 식별했습니다. 그는 음성과 텍스트 및 비전의 통합이 다중 모드 시스템의 발전과 인공 일반 지능에 대한 잠재적 기여에 중요한 역할을 할 가능성이 높지만, 진행 상황은 과학적 연구와 실제 엔지니어링 솔루션 모두에 달려 있다고 강조하면서 결론을 내렸습니다. [7]