1. 서론 및 개요
MultiActor-Audiobook은 여러 명의 독특한 화자를 특징으로 하는 표현력 있는 오디오북을 생성하기 위한 제로샷 프레임워크를 제시합니다. 이 시스템은 기존 시스템의 주요 한계점, 즉 방대한 성우 데이터셋의 높은 비용, 훈련된 모델의 도메인 특이성, 수동 운율 주석 작업의 노동 집약적 특성을 해결합니다. 핵심 혁신은 두 가지 자동화된 제로샷 프로세스, 즉 멀티모달 화자 페르소나 생성 (MSP)과 LLM 기반 스크립트 지시 생성 (LSI)에 있습니다. 생성된 시각적 페르소나로부터 캐릭터별 목소리를 합성하고 텍스트 문맥으로부터 감정/운율 단서를 동적으로 추론함으로써, 이 시스템은 특정 작업에 대한 훈련 데이터 없이도 일관되고 적절하며 표현력 있는 내레이션을 가진 오디오북을 생성하는 것을 목표로 합니다.
2. 핵심 방법론
이 시스템의 효과성은 오디오북 제작에서 가장 어려운 측면인 캐릭터 목소리 생성과 표현력 있는 낭독을 자동화하는 두 가지 새로운 상호 연결된 프로세스에 달려 있습니다.
2.1 멀티모달 화자 페르소나 생성 (MSP)
이 프로세스는 텍스트 설명만으로 이야기의 각 캐릭터에 대해 고유하고 일관된 목소리를 생성합니다.
- 엔티티 식별 및 텍스트 페르소나 추출: LLM(예: GPT-4)이 소설 스크립트를 분석하여 모든 발화 엔티티(캐릭터, 내레이터)를 식별합니다. 각 엔티티에 대해 서술 텍스트에서 설명적 특성(성격, 나이, 역할, 신체적 특징)을 추출합니다.
- 시각적 페르소나 생성: 텍스트-이미지 모델(예: Stable Diffusion)이 추출된 텍스트 설명을 사용하여 캐릭터를 시각적으로 구현한 얼굴 이미지를 생성합니다.
- 얼굴-목소리 합성: 사전 훈련된 얼굴-목소리 시스템([14]과 같은 연구 참조)이 생성된 얼굴 이미지와 그 캡션을 받아 짧은 음성 샘플을 합성합니다. 이 샘플은 캐릭터의 독특한 운율 특성(음색, 기본 피치, 말투)을 담고 있습니다. 이 목소리는 해당 캐릭터의 모든 후속 대화를 위한 기준이 됩니다.
2.2 LLM 기반 스크립트 지시 생성 (LSI)
단조로운 낭독을 피하기 위해, 이 프로세스는 동적이고 문장 수준의 운율 지시를 생성합니다.
- 문맥 인식 분석: 합성될 각 문장에 대해 LLM은 다음을 제공받습니다: 대상 문장, 주변 문맥(이전/다음 문장), 현재 화자의 페르소나 정보.
- 지시 생성: LLM은 문맥과 캐릭터에 적합한 감정 상태(예: "기쁨", "침울함"), 어조(예: "비꼬는", "권위 있는"), 피치 변화, 말하기 속도를 지정하는 구조화된 지시 세트를 출력합니다.
- TTS 프롬프팅: 이러한 지시는 자연어 프롬프트(예: "[감정] 어조로 [피치] 변화를 주어 말하세요")로 형식화되어 사전 훈련된 프롬프트 가능 텍스트-음성(TTS) 모델이 최종 오디오를 생성하도록 안내합니다.
3. 기술 아키텍처 및 상세 내용
3.1 시스템 파이프라인
종단 간 워크플로는 순차적 파이프라인으로 시각화할 수 있습니다:
입력 소설 텍스트 → LLM (화자 ID 및 페르소나 추출) → Text2Image (얼굴 생성) → Face2Voice (음성 샘플) → [캐릭터별]
각 문장에 대해: [문장 + 문맥 + 페르소나] → LLM (LSI) → Prompt-TTS (캐릭터 목소리 사용) → 출력 오디오 세그먼트
최종 오디오북은 처리된 모든 문장의 출력을 시간 순으로 연결한 것입니다.
3.2 수학적 공식화
캐릭터 $c$가 말하는 문장 $s_i$에 대한 핵심 생성 프로세스를 공식화할 수 있습니다. $C$를 $s_i$ 주변의 문맥 윈도우로, $P_c$를 캐릭터 $c$의 멀티모달 페르소나(텍스트 설명 $D_c$, 생성된 얼굴 $F_c$, 음성 샘플 $V_c$ 포함)로 정의합니다.
LSI 프로세스는 지시 벡터 $I_i$를 생성합니다: $$I_i = \text{LLM}_{\theta}(s_i, C, P_c)$$ 여기서 $\text{LLM}_{\theta}$는 매개변수 $\theta$를 가진 대규모 언어 모델입니다.
문장의 최종 오디오 $A_i$는 캐릭터의 목소리 $V_c$와 지시 $I_i$에 조건부인 프롬프트 가능 TTS 모델 $\text{TTS}_{\phi}$에 의해 합성됩니다: $$A_i = \text{TTS}_{\phi}(s_i | V_c, I_i)$$ 이 시스템의 제로샷 능력은 미세 조정 없이 사전 훈련된 고정 모델($\text{LLM}_{\theta}$, Text2Image, Face2Voice, $\text{TTS}_{\phi}$)을 사용하는 데서 비롯됩니다.
4. 실험 결과 및 평가
이 논문은 상용 오디오북 제품 및 제거 실험과의 비교 평가를 통해 MultiActor-Audiobook을 검증합니다.
4.1 인간 평가
인간 평가자는 생성된 오디오북 샘플을 감정 표현력, 화자 일관성, 전반적인 자연스러움 등의 기준으로 평가했습니다. MultiActor-Audiobook은 상용 TTS 기반 오디오북 서비스와 비교하여 경쟁력 있거나 우수한 평가를 달성했습니다. 특히, 단일 목소리나 단순 규칙 기반 운율을 사용한 베이스라인 시스템보다, 독특한 페르소나를 가진 여러 캐릭터가 참여하는 대화에서 더 뛰어난 성능을 보였습니다.
4.2 MLLM 평가
인간 평가를 보완하기 위해, 저자들은 GPT-4V와 같은 멀티모달 대규모 언어 모델(MLLM)을 사용했습니다. MLLM에 오디오와 장면/캐릭터 설명이 제시되고, 음성 전달이 문맥과 일치하는지 판단하도록 요청받았습니다. 이 객관적 지표는 시스템이 상용 시스템만큼 효과적으로 문맥에 적합한 운율을 생성할 수 있음을 확인하여 LSI 모듈의 효과성을 검증했습니다.
4.3 제거 실험
제거 실험은 각 핵심 모듈의 기여도를 보여주었습니다:
- MSP 없음 (일반 목소리 사용): 화자 일관성과 캐릭터 구별성이 크게 떨어져 대화가 혼란스러워졌습니다.
- LSI 없음 (중립 TTS 사용): 오디오가 단조롭고 감정적으로 평평해져 표현력 지표에서 낮은 점수를 받았습니다.
- 전체 시스템 (MSP + LSI): 모든 평가 차원에서 가장 높은 점수를 달성하여 두 구성 요소의 시너지적 필요성을 입증했습니다.
5. 분석 프레임워크 및 사례 연구
프레임워크 적용: 제작을 위해 소설을 분석할 때, 시스템은 결정론적 프레임워크를 따릅니다. 사례 연구 - 판타지 소설 발췌문:
- 입력: "긴 회색 수염을 기른 늙은 마법사가 경고를 중얼거렸다. '그림자를 조심하라,' 그는 갈리는 돌멩이 같은 목소리로 말했다."
- MSP 실행: LLM이 "늙은 마법사"를 화자로 식별합니다. 페르소나 추출: {나이: 늙음, 역할: 마법사, 설명: 긴 회색 수염, 음질: 갈리는 돌멩이 같음}. Text2Image가 주름진 얼굴을 생성합니다. Face2Voice가 깊고 거친 음성 샘플을 생성합니다.
- "그림자를 조심하라"에 대한 LSI 실행: LLM은 문장, 문맥(경고), 마법사 페르소나를 받습니다. 지시 생성: {감정: 심각한 우려, 어조: 불길하고 낮은, 피치: 낮고 안정된, 속도: 느림}.
- 출력: 프롬프트 가능 TTS가 거친 마법사 목소리를 사용하여 "그림자를 조심하라"를 느리고 불길하며 낮은 피치로 전달하는 방식으로 합성합니다.
6. 비판적 분석 및 전문가 통찰
핵심 통찰: MultiActor-Audiobook은 또 다른 TTS 래퍼가 아닙니다. 이는 데이터 중심에서 프롬프트 중심 생성 오디오로의 전략적 전환입니다. 이 시스템의 진정한 돌파구는 오디오북 제작을 멀티모달 문맥 검색 및 지시 수행 문제로 취급하여, 전통적인 목소리 복제 및 운율 모델링의 과도한 비용 곡선을 우회한다는 점입니다. 이는 시각 분야의 DALL-E 및 Stable Diffusion과 같은 모델에서 예시되는, 사전 훈련된 부분들의 구성성이 단일 모델 훈련을 대체하는 더 넓은 산업 변화와 일치합니다.
논리적 흐름: 논리는 우아하게 선형적이지만 취약한 가정에 의존합니다. MSP는 얼굴-목소리 모델이 어떤 생성된 얼굴이라도 적합하고 일관된 목소리에 안정적으로 매핑한다고 가정합니다. 이는 교차 모달 표현 학습의 알려진 과제(AudioCLIP과 같은 연구에서 논의된 이미지와 오디오 잠재 공간 간의 차이에서 볼 수 있듯이)를 고려할 때 믿음의 도약입니다. LSI는 LLM의 "침울한 어조"에 대한 텍스트 이해가 다운스트림 TTS의 음향 매개변수로 완벽하게 변환된다고 가정합니다. 이는 음성 처리 문헌에서 지적된 바와 같이 근본적인 과제로 남아 있는 의미론-음향 간극입니다.
강점과 결점: 그 강점은 부인할 수 없는 경제적 및 운영적 효율성입니다: 제로샷, 성우 목소리에 대한 라이선스 문제 없음, 신속한 프로토타이핑. 결점은 품질 상한선에 있습니다. 이 시스템은 가장 약한 기성품 구성 요소, 즉 얼굴-목소리 모델과 프롬프트 가능 TTS만큼만 좋습니다. 이 시스템은 미묘함과 장거리 일관성에 어려움을 겪을 것입니다. 캐릭터의 목소리가 감정에 의해 갈라지는 것과 같이 하위 음소 제어가 필요한 미묘함을 처리할 수 있을까요? 가능성은 낮습니다. 목소리를 위한 시각적 페르소나에 대한 의존도는 생성형 AI 윤리에서 잘 문서화된 문제인 잠재적 편향 증폭기입니다.
실행 가능한 통찰: 투자자와 제품 관리자에게 이것은 틈새 시장(인디 게임 개발, 신속한 콘텐츠 현지화, 맞춤형 교육 엔터테인먼트)을 위한 매력적인 최소 기능 제품(MVP)입니다. 그러나 인간에 필적하는 품질을 추구하는 주류 출판의 경우, 이는 대체재가 아닌 보완재입니다. 즉각적인 로드맵은 하이브리드 접근 방식에 초점을 맞춰야 합니다: 이 시스템을 사용하여 풍부한 "초안" 오디오북을 생성하고, 인간 감독이 이를 효율적으로 편집하고 다듬어 제작 시간을 70-80% 단축하는 것(100% 자동화를 목표하기보다). 연구 우선순위는 Flamingo나 CM3와 같은 멀티모달 모델에서 사용되는 정렬 기술에서 영감을 받은 더 나은 공동 임베딩 공간을 통해 의미론-음향 간극을 해소하는 데 있어야 합니다.
7. 미래 응용 분야 및 방향
MultiActor-Audiobook이 소개한 패러다임은 여러 가지 길을 열어줍니다:
- 인터랙티브 미디어 및 게임: 플레이어 선택과 진화하는 캐릭터 상태에 기반한 게임 또는 인터랙티브 스토리에서 캐릭터 대화의 동적 실시간 생성.
- 접근성 및 교육: 교과서, 문서 또는 맞춤형 동화를 매력적인 다중 목소리 내레이션으로 즉시 변환하여 시각 장애 사용자의 접근성을 크게 향상시키거나 몰입형 학습 자료를 생성.
- 콘텐츠 현지화: 고급 다국어 TTS 백엔드가 필요하지만, 대상 언어로 문화적 및 캐릭터에 적합한 목소리를 생성하여 비디오 콘텐츠의 신속한 더빙 및 음성 해설.
- 미래 연구 방향:
- 향상된 페르소나 모델링: 얼굴과 텍스트 설명을 넘어 더 많은 양식(예: 캐릭터 행동, 묘사된 소리)을 통합하여 목소리와 운율에 정보를 제공.
- 장문맥 일관성: LSI를 개선하여 전체 책에 걸친 더 넓은 서사적 흐름 일관성(예: 캐릭터의 점진적인 감정적 하락)을 유지.
- 직접 음향 매개변수 예측: 자연어 지시를 넘어서 LLM이 직접적이고 해석 가능한 음향 특징 목표(F0 곡선, 에너지)를 출력하여 더 세밀한 제어를 가능하게 함. VALL-E의 접근 방식과 유사하지만 제로샷 설정에서.
- 윤리적 목소리 설계: 얼굴-목소리 및 페르소나 생성 구성 요소를 감사하고 편향을 제거하여 고정관념화를 방지하는 프레임워크 개발.
8. 참고문헌
- Tan, X., et al. (2021). NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality. arXiv preprint arXiv:2105.04421.
- Wang, C., et al. (2023). Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers. arXiv preprint arXiv:2301.02111.
- Zhang, Y., et al. (2022). META-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech. IEEE/ACM Transactions on Audio, Speech, and Language Processing.
- Radford, A., et al. (2023). Robust Speech Recognition via Large-Scale Weak Supervision. Proceedings of ICML.
- Kim, J., et al. (2021). VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Proceedings of ICML.
- OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.
- Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the CVPR.
- Alayrac, J., et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. Advances in Neural Information Processing Systems.
- Park, K., Joo, S., & Jung, K. (2024). MultiActor-Audiobook: Zero-Shot Audiobook Generation with Faces and Voices of Multiple Speakers. Manuscript submitted for publication.
- Guzhov, A., et al. (2022). AudioCLIP: Extending CLIP to Image, Text and Audio. Proceedings of the ICASSP.