**잉하오 에런 리(Yinghao Aaron Li)**는 음성 합성, 음성 변환 및 다중 모달 대규모 언어 모델에 대한 공헌으로 알려진 인공 지능 연구 과학자입니다. 그는 현재 메타 초지능 연구소(Meta Superintelligence Labs)의 연구 과학자이며 StyleTTS, StyleTTS 2, DMOSpeech 2를 포함한 여러 주목할 만한 텍스트 음성 변환(TTS) 모델을 개발했습니다. [1]
리(Li)는 컬럼비아 대학교에서 전기 공학과 박사 학위를 받았습니다. 컬럼비아 대학교에서의 그의 연구는 니마 메스가라니(Nima Mesgarani) 교수의 지도하에 텍스트 음성 합성 및 음성 변환을 포함한 생성적 음성 모델링에 중점을 두었습니다. 그의 학문적 경력 전반에 걸쳐 그의 연구는 다양한 IEEE 저널에 발표되었고 저명한 AI 및 계산 언어학 컨퍼런스에서 발표되었습니다. [2] [3] [10]
박사 과정 중 리(Li)는 어도비(Adobe)에서 연구 인턴십을 수행했으며, 그의 연구는 DMOSpeech 프로젝트 개발에 기여했습니다. 박사 학위를 마친 후, 리(Li)는 2025년에 메타 초지능 연구소(Meta Superintelligence Labs)에 AI 연구 과학자로 합류할 것이라고 발표했습니다. 그의 연구는 다중 모달 대규모 언어 모델에 중점을 두고 있습니다. 그의 프로젝트는 종종 GitHub 및 Hugging Face와 같은 플랫폼을 통해 공개적으로 제공되며, StyleTTS 2와 같은 모델은 오픈 소스 커뮤니티에서 상당한 관심을 얻었습니다.
리(Li)의 연구는 주로 자연스럽고 다양하며 효율적인 인간과 같은 음성 생성의 과제를 해결합니다. 그의 연구는 스타일 기반 생성 모델, 제로샷 합성, 메트릭 최적화 TTS 및 통합된 음성 대화 시스템에 걸쳐 있습니다. [1] [2] [3] [10] [11]
StyleTTS는 자연스러운 운율 변화와 감정적 어조로 음성을 생성하도록 설계된 텍스트 음성 합성을 위한 스타일 기반 생성 모델입니다. 이 모델은 명시적인 운율 모델링 없이 참조 음성 신호에서 샘플링된 잠재 변수인 스타일 벡터에서 직접 음성을 합성합니다. 이러한 접근 방식을 통해 동일한 텍스트 입력에서 다양한 음성 출력을 생성할 수 있습니다. [5]
이를 기반으로 StyleTTS 2는 인간 수준의 TTS 품질을 향상시키기 위해 개발되었습니다. 여기에는 대규모 음성 언어 모델과 스타일 확산 및 적대적 훈련이 통합되어 있습니다. 이 모델은 합성된 음성의 자연스러움과 화자 유사성을 향상시켜 이전 모델보다 개선되었습니다. 이 프로젝트는 오픈 소스 커뮤니티에서 상당한 관심을 얻었으며 GitHub에서 5,900개 이상의 스타를 얻었고 다른 인기 있는 TTS 프로젝트의 기반이 되었습니다. [6] [1]
2025년 북미 계산 언어학 협회(NAACL) 컨퍼런스에서 발표된 StyleTTS-ZS는 효율적이고 고품질의 제로샷 TTS 모델입니다. 이 모델은 느린 추론 속도와 복잡한 신경 코덱 표현에 대한 의존성과 같은 대규모 TTS의 일반적인 문제를 해결합니다. 짧은 참조 오디오 클립에서 다양한 화자 ID와 운율을 포착하기 위해 증류된 시간 변화 스타일 확산을 사용하는 방법을 도입합니다.
StyleTTS-ZS의 주요 기능은 다음과 같습니다.
이 모델은 발표 당시 최첨단 대규모 제로샷 TTS 시스템보다 10~20배 빠른 것으로 나타났습니다. [7]
DMOSpeech 2는 메트릭 최적화 음성 합성의 발전을 나타내며 리(Li)의 박사 학위 논문의 마지막 프로젝트였습니다. 이는 이전에 지각 메트릭에 대해 최적화되지 않은 구성 요소인 지속 시간 예측기를 최적화하기 위해 강화 학습(RL)을 통합하여 원래 DMOSpeech의 작업을 확장합니다. 이 시스템은 제로샷 TTS를 위한 보다 완벽한 메트릭 최적화 파이프라인을 만드는 것을 목표로 합니다.
DMOSpeech 2의 핵심 혁신은 다음과 같습니다.
평가 결과 DMOSpeech 2는 이전 시스템에 비해 모든 메트릭에서 우수한 성능을 달성했으며 4~8단계에서 추론을 수행할 수 있었으며 품질 저하 없이 샘플링 단계를 절반으로 줄였습니다. [8] [1]
Style-Talker는 CoLM 2024에서 발표된 빠르고 자연스러운 음성 대화 생성을 위해 설계된 프레임워크입니다. 자동 음성 인식(ASR), 대규모 언어 모델(LLM) 및 TTS 모델을 연결하는 기존의 계단식 시스템의 지연 시간과 운율 제한을 해결합니다. Style-Talker는 오디오 LLM과 스타일 기반 TTS 모델을 미세 조정하여 함께 작동하도록 합니다.
이 시스템은 사용자 입력 오디오를 가져와 전사된 채팅 기록과 음성 스타일을 사용하여 응답의 텍스트와 말하기 스타일을 모두 생성합니다. 응답이 합성되고 재생되는 동안 시스템은 다음 차례의 입력 오디오를 병렬로 처리하여 전사 및 스타일을 추출합니다. 이 파이프라인 설계는 지연 시간을 크게 줄이고 모델이 입력 음성의 언어적 정보를 출력에 통합하여 더 자연스럽고 일관된 대화를 가능하게 합니다. 실험 결과 Style-Talker는 기존의 계단식 및 음성 대 음성 기준 모델보다 50% 이상 빠른 것으로 나타났습니다. [9]
리(Li)는 음성 처리 분야의 여러 다른 프로젝트에도 기여했습니다. 그의 연구에는 TTS 운율을 향상시키기 위한 음소 수준 BERT 모델인 PL-BERT, 비지도 제로샷 음성 변환을 위해 음성 언어 모델 표현을 사용하는 SLMGAN, 그리고 음성 관련 작업을 위한 Mamba 아키텍처에 대한 검토인 Speech Slytherin이 포함됩니다. 이러한 프로젝트는 생성적 음성 모델의 효율성, 자연스러움 및 제어 가능성을 향상시키는 데 대한 그의 초점을 더욱 보여줍니다. [2]