**잉하오 아론 리(Yinghao Aaron Li)**는 음성 합성, 음성 변환 및 멀티모달 대규모 언어 모델에 대한 기여로 알려진 인공 지능 연구 과학자입니다. 현재 Meta Superintelligence Labs의 연구 과학자로 재직 중이며 StyleTTS, StyleTTS 2 및 DMOSpeech 2를 포함한 여러 주목할 만한 텍스트 음성 변환(TTS) 모델을 개발했습니다. [1]
리는 컬럼비아 대학교에서 박사 학위를 받았으며 전기 공학과에서 Ph.D.를 취득했습니다. 컬럼비아에서의 그의 연구는 Nima Mesgarani 교수의 지도하에 텍스트 음성 변환 및 음성 변환을 포함한 생성적 음성 모델링에 중점을 두었습니다. 학업 경력 전반에 걸쳐 그의 연구는 다양한 IEEE 저널에 게재되었으며 저명한 AI 및 전산 언어학 컨퍼런스에서 발표되었습니다. [2] [3] [10]
박사 과정 동안 리는 Adobe에서 연구 인턴십을 수행했으며, 그의 연구는 DMOSpeech 프로젝트 개발에 기여했습니다. 박사 학위를 마친 후 리는 2025년에 Meta Superintelligence Labs에 AI 연구 과학자로 합류할 것이라고 발표했습니다. 그의 연구는 멀티모달 대규모 언어 모델에 중점을 둡니다. 그의 프로젝트는 종종 GitHub 및 Hugging Face와 같은 플랫폼을 통해 공개적으로 제공되며, StyleTTS 2와 같은 모델은 오픈 소스 커뮤니티 내에서 상당한 인기를 얻었습니다.
리의 연구는 주로 자연스럽고 다양하며 효율적인 인간과 유사한 음성 생성의 과제를 해결합니다. 그의 연구는 스타일 기반 생성 모델, 제로샷 합성, 메트릭 최적화 TTS 및 통합 음성 대화 시스템에 걸쳐 있습니다. [1] [2] [3] [10] [11]
StyleTTS는 자연스러운 운율 변화와 감정적 톤으로 음성을 생성하도록 설계된 텍스트 음성 변환을 위한 스타일 기반 생성 모델입니다. 이 모델은 명시적인 운율 모델링 없이 참조 음성 신호에서 샘플링된 잠재 변수인 스타일 벡터에서 직접 음성을 합성합니다. 이 접근 방식을 통해 동일한 텍스트 입력에서 다양한 음성 출력을 생성할 수 있습니다. [5]
이러한 기반을 바탕으로 StyleTTS 2는 인간 수준의 TTS 품질을 향상시키기 위해 개발되었습니다. 스타일 확산 및 적대적 훈련을 대규모 음성 언어 모델과 통합합니다. 이 모델은 합성된 음성의 자연스러움과 화자 유사성을 향상시켜 이전 모델을 개선합니다. 이 프로젝트는 오픈 소스 커뮤니티에서 상당한 관심을 받아 GitHub에서 5,900개 이상의 별을 획득했으며 다른 인기 있는 TTS 프로젝트의 기반을 형성했습니다. [6] [1]
2025년 북미 전산 언어학 협회(NAACL) 컨퍼런스에서 발표된 StyleTTS-ZS는 효율적인 고품질 제로샷 TTS 모델입니다. 이 모델은 느린 추론 속도 및 복잡한 신경 코덱 표현에 대한 의존성과 같은 대규모 TTS의 일반적인 문제를 해결합니다. 짧은 참조 오디오 클립에서 다양한 화자 정체성과 운율을 캡처하기 위해 증류된 시간 변화 스타일 확산을 사용하는 방법을 소개합니다.
StyleTTS-ZS의 주요 기능은 다음과 같습니다.
이 모델은 게시 당시 다른 최첨단 대규모 제로샷 TTS 시스템보다 10~20배 더 빠른 것으로 입증되었습니다. [7]
DMOSpeech 2는 메트릭 최적화 음성 합성의 발전을 나타내며 리의 박사 과정 중 마지막 프로젝트였습니다. 이전에는 지각 메트릭에 최적화되지 않았던 구성 요소인 지속 시간 예측기를 최적화하기 위해 강화 학습(RL)을 통합하여 원래 DMOSpeech의 작업을 확장합니다. 이 시스템은 제로샷 TTS를 위한 보다 완전한 메트릭 최적화 파이프라인을 만드는 것을 목표로 합니다.
DMOSpeech 2의 핵심 혁신은 다음과 같습니다.
평가 결과 DMOSpeech 2는 이전 시스템에 비해 모든 메트릭에서 우수한 성능을 달성했으며 품질 저하 없이 샘플링 단계를 절반으로 줄여 4-8단계 만에 추론을 수행할 수 있었습니다. [8] [1]
Style-Talker는 CoLM 2024에서 발표된 빠르고 자연스러운 음성 대화 생성을 위해 설계된 프레임워크입니다. 자동 음성 인식(ASR), 대규모 언어 모델(LLM) 및 TTS 모델을 함께 연결하는 기존의 계단식 시스템의 대기 시간 및 운율 제한을 해결합니다. Style-Talker는 오디오 LLM과 스타일 기반 TTS 모델이 함께 작동하도록 미세 조정합니다.
이 시스템은 사용자 입력 오디오를 가져와 전사된 채팅 기록과 음성 스타일을 사용하여 응답에 대한 텍스트와 말하기 스타일을 모두 생성합니다. 응답이 합성되어 재생되는 동안 시스템은 다음 턴의 입력 오디오를 병렬로 처리하여 전사와 스타일을 추출합니다. 이 파이프라인 설계를 통해 대기 시간이 크게 줄어들고 모델이 입력 음성의 언어 외 정보를 출력에 통합하여 보다 자연스럽고 일관된 대화를 생성할 수 있습니다. 실험 결과 Style-Talker는 기존의 계단식 및 음성-음성 기준 모델보다 50% 이상 빠른 것으로 나타났습니다. [9]
리는 또한 음성 처리 분야의 여러 다른 프로젝트에 기여했습니다. 그의 연구에는 TTS 운율을 향상시키기 위한 음소 수준 BERT 모델인 PL-BERT, 비지도 제로샷 음성 변환을 위한 음성 언어 모델 표현을 사용하는 SLMGAN, 음성 관련 작업에 대한 Mamba 아키텍처에 대한 검토인 Speech Slytherin이 포함됩니다. 이러한 프로젝트는 생성적 음성 모델의 효율성, 자연스러움 및 제어 가능성을 개선하는 데 중점을 둔 그의 노력을 더욱 입증합니다. [2]