오디오북 운율 분석: 향상된 텍스트-음성 변환을 위한 NLP 모델

1. 서론 및 개요

본 연구 논문 "오디오북 운율 분석"은 현대 텍스트-음성 변환(TTS) 시스템의 중요한 한계, 즉 인간이 낭독하는 오디오북 특유의 표현력 있고 극적인 발성을 재현하지 못하는 점을 해결합니다. 상용 TTS는 일반적인 음성에서는 높은 자연스러움을 달성했지만, 대화, 감정, 묘사가 풍부한 서사 텍스트에서는 부족함을 보입니다. 핵심 주장은 고차원 자연어 처리(NLP) 분석—특히 캐릭터 식별, 대화, 서사 구조를 대상으로 하는—을 활용하여 운율 특징(음높이, 음량, 발화 속도)을 예측하고 합성 오디오북 품질을 크게 향상시킬 수 있다는 것입니다.

이 연구는 93개의 정렬된 책-오디오북 쌍으로 구성된 새로운 데이터셋을 제시하며, 이 데이터로 훈련된 모델이 인간 운율 패턴과의 상관관계 측면에서 최신 상용 TTS 기준선(Google Cloud TTS)을 능가함을 보여줍니다.

93

정렬된 책-오디오북 쌍

1806

분석된 장

22/24

음높이 예측이 더 우수한 책

23/24

음량 예측이 더 우수한 책

2. 방법론 및 데이터셋

2.1 데이터셋 구축

이 연구의 기초는 93편의 소설과 그에 상응하는 인간 낭독 오디오북으로 구성된 세심하게 선별된 데이터셋입니다. 이 데이터셋은 텍스트와 오디오 간 문장 수준 정렬이 이루어진 1,806개의 장을 포함하여 정밀한 분석을 가능하게 합니다. 이 데이터셋은 공개되어 음성 및 NLP 커뮤니티에 귀중한 자원을 제공합니다. 정렬 과정은 텍스트의 각 문장에 대한 정확한 운율 레이블(음높이, 음량, 속도)을 추출하는 데 중요합니다.

2.2 운율 속성 추출

정렬된 오디오북에서 세 가지 핵심 운율 속성이 문장 수준으로 추출됩니다:

음높이 (F0): 기본 주파수로, 성대 진동률을 나타냅니다. 헤르츠(Hz) 단위로 측정됩니다.
음량 (강도/에너지): 음성 신호의 진폭 또는 크기입니다. 데시벨(dB) 단위로 측정됩니다.
속도 (발화 속도): 전달 속도로, 일반적으로 초당 음절 수로 측정됩니다.

이러한 속성들은 예측 모델의 목표 변수로 사용됩니다.

2.3 모델 아키텍처

주요 모델은 MPNet(언어 이해를 위한 마스킹 및 순열 사전 훈련) 문장 임베딩을 기반으로 구축된 장단기 메모리(LSTM) 네트워크입니다. MPNet은 입력 텍스트의 풍부한 문맥적 표현을 제공합니다. LSTM 레이어는 서사에서의 순차적 의존성을 모델링하여 음높이, 음량, 속도에 대한 연속 값을 예측합니다. 이 아키텍처는 서사 이해에 필수적인 장거리 문맥적 단서를 포착하는 능력 때문에 선택되었습니다.

3. 주요 결과 및 분석

3.1 캐릭터 수준 운율 패턴

중요한 실증적 발견은 인간 낭독자가 캐릭터 속성과 서사적 맥락에 따라 체계적으로 운율을 조절한다는 것입니다. 분석 결과는 다음과 같습니다:

두 주인공의 성별이 다른 31권의 책 중 21권에서, 낭독자들은 남성 캐릭터를 묘사하기 위해 더 낮은 음높이와 더 높은 음량을 사용했습니다.
낭독자들은 캐릭터 성별과 무관하게, 대화 영역에 비해 서사 영역에서 더 낮은 음높이를 일관되게 사용했습니다.

이는 전문 낭독자들이 사용하는 암묵적인 연기 규칙을 수치화하여, 모델이 학습할 수 있는 명확한 신호를 제공합니다.

3.2 모델 성능 vs. 상용 TTS

제안된 모델의 예측된 운율 속성은 Google Cloud 텍스트-음성 변환의 기본 출력보다 인간 낭독과 훨씬 높은 상관관계를 보입니다.

음높이: 모델의 예측은 테스트 세트의 24권 중 22권에서 인간 낭독과 더 나은 상관관계를 보였습니다.
음량: 모델의 예측은 24권 중 23권에서 더 나은 상관관계를 보였습니다.

이는 일반적인 TTS 시스템이 놓치는 미묘한 인간 운율 패턴을 모델이 효과적으로 포착함을 보여줍니다.

4. 기술 구현

4.1 수학적 공식화

운율 예측 작업은 회귀 문제로 구성됩니다. MPNet 임베딩 $\mathbf{e}_S$로 표현된 입력 문장 $S$가 주어졌을 때, 매개변수 $\theta$로 파라미터화된 모델 $f_\theta$는 운율 벡터 $\mathbf{p}$를 예측합니다: $$\mathbf{p} = [\hat{pitch}, \hat{volume}, \hat{rate}]^T = f_\theta(\mathbf{e}_S)$$ 모델은 예측값 $\hat{\mathbf{p}}$와 인간 오디오에서 추출한 실제 운율 값 $\mathbf{p}_{gt}$ 사이의 평균 제곱 오차(MSE) 손실을 최소화하도록 훈련됩니다: $$\mathcal{L}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \| \hat{\mathbf{p}}_i - \mathbf{p}_{gt,i} \|^2_2$$

4.2 LSTM 아키텍처 상세

핵심 시퀀스 모델은 표준 LSTM 셀입니다. 각 단계 $t$(문장에 해당)에서 입력 $\mathbf{x}_t$(MPNet 임베딩)와 이전 상태를 기반으로 은닉 상태 $\mathbf{h}_t$와 셀 상태 $\mathbf{c}_t$를 업데이트합니다: $$\mathbf{i}_t = \sigma(\mathbf{W}_{xi}\mathbf{x}_t + \mathbf{W}_{hi}\mathbf{h}_{t-1} + \mathbf{b}_i)$$ $$\mathbf{f}_t = \sigma(\mathbf{W}_{xf}\mathbf{x}_t + \mathbf{W}_{hf}\mathbf{h}_{t-1} + \mathbf{b}_f)$$ $$\mathbf{o}_t = \sigma(\mathbf{W}_{xo}\mathbf{x}_t + \mathbf{W}_{ho}\mathbf{h}_{t-1} + \mathbf{b}_o)$$ $$\tilde{\mathbf{c}}_t = \tanh(\mathbf{W}_{xc}\mathbf{x}_t + \mathbf{W}_{hc}\mathbf{h}_{t-1} + \mathbf{b}_c)$$ $$\mathbf{c}_t = \mathbf{f}_t \odot \mathbf{c}_{t-1} + \mathbf{i}_t \odot \tilde{\mathbf{c}}_t$$ $$\mathbf{h}_t = \mathbf{o}_t \odot \tanh(\mathbf{c}_t)$$ 여기서 $\sigma$는 시그모이드 함수, $\odot$은 요소별 곱셈, $\mathbf{W}$와 $\mathbf{b}$는 학습 가능한 매개변수입니다. 최종 은닉 상태 $\mathbf{h}_t$는 완전 연결 레이어를 통과하여 3차원 운율 예측을 생성합니다.

5. 실험 결과

5.1 상관관계 지표 및 그림 1

주요 평가 지표는 한 장 전체에 걸쳐 예측된 운율 윤곽과 인간 낭독 운율 윤곽 사이의 상관 계수(예: 피어슨의 r)입니다. 논문의 그림 1은 제안 시스템과 Google Cloud TTS의 인간-TTS 상관관계를 24권의 테스트 책에 대해 비교한 점 도표를 제시합니다.

차트 설명 (그림 1a - 음높이): x축은 다른 책들을 나타냅니다. 각 책에는 두 개의 점이 있습니다: 하나는 제안 모델의 음높이와 인간 낭독의 상관관계, 다른 하나는 Google TTS의 상관관계입니다. 도표는 대부분의 책에서 모델의 점(뚜렷한 색상일 가능성 있음)이 Google의 점보다 높은 것을 시각적으로 보여주며, 22/24 주장을 수치적으로 뒷받침합니다.
차트 설명 (그림 1b - 음량): 음량 상관관계에 대한 유사한 점 도표로, 제안 모델의 훨씬 더 우세한 성능을 보여주며, 이는 23/24 결과에 해당합니다.

이러한 도표들은 모델이 인간 서사 운율을 모방하는 우수한 능력에 대한 강력한 시각적 증거를 제공합니다.

5.2 인간 평가 연구

상관관계 지표를 넘어서, 인간 평가 연구가 수행되었습니다. 모델의 운율 예측은 TTS 엔진을 제어하기 위한 SSML(음성 합성 마크업 언어) 태그를 생성하는 데 사용되었습니다. 청취자들에게 두 가지 버전이 제시되었습니다: 기본 Google TTS 오디오와 모델의 예측을 사용한 SSML 향상 오디오입니다. 결과는 미묘했습니다: 소수의 다수(22명의 피험자 중 12명)가 SSML 향상 낭독을 선호했지만, 선호도는 압도적이지 않았습니다. 이는 주관적인 오디오 품질 평가의 복잡성을 강조하며, 모델이 객관적인 운율 패턴은 잘 포착하지만, 이를 최종 오디오 출력에 원활하게 통합하는 것은 여전히 과제임을 시사합니다.

6. 분석 프레임워크 및 사례 연구

서사 운율 분석 프레임워크:

텍스트 분할 및 주석: 소설을 문장으로 분할합니다. 다음을 위한 NLP 파이프라인을 실행합니다:
- 개체명 인식(NER)으로 캐릭터 식별.
- 인용문 귀속으로 대화를 캐릭터에 연결.
- 텍스트 분류로 문장을 "서사", "대화", "묘사"로 레이블링.
문맥적 특징 공학: 각 문장에 대해 특징 생성:
- 이진 플래그: `is_dialogue`, `is_narrative`.
- 화자의 캐릭터 ID(대화 중인 경우).
- 메타데이터: 캐릭터 성별(외부 지식 베이스에서).
- 의미적 내용을 포착하는 문장 임베딩(MPNet).
운율 레이블 추출: 시간 정렬된 오디오에서 각 문장에 대한 음높이(F0), 음량(RMS 에너지), 발화 속도(음절/지속 시간)를 추출합니다.
모델 훈련 및 추론: {특징 → 운율 레이블} 쌍에 대해 LSTM 모델(4.2절)을 훈련합니다. 새로운 텍스트에 대해 훈련된 모델을 적용하여 운율 속성을 예측합니다.
SSML 생성 및 합성: 예측된 음높이(상대적 승수, 예: `+20%`), 음량(예: `+3dB`), 속도(예: `slow`)를 SSML 태그로 변환합니다. 태그가 지정된 텍스트를 고품질 신경망 TTS 엔진(예: Google, Amazon Polly)에 공급하여 최종 오디오를 렌더링합니다.

사례 연구 - 프레임워크 적용: "'나는 절대 돌아가지 않을 거야,'라고 그가 반항적으로 말했다."라는 문장을 고려해 보세요. 프레임워크는 다음과 같이 작동합니다: 1) 이를 남성 캐릭터("그")가 말한 대화로 식별합니다. 2) 모델은 남성 대화가 서사보다 종종 더 낮은 음높이와 더 높은 음량을 가진다는 것을 학습했으므로 다음과 같이 예측할 수 있습니다: `pitch_shift = -10%`, `volume_boost = +2dB`. 3) 이는 SSML로 렌더링됩니다: `나는 절대 돌아가지 않을 거야, 그가 반항적으로 말했다.`. 결과적인 합성 음성은 의도된 극적인 강조를 전달할 것입니다.

7. 향후 응용 및 방향

개인화된 오디오북 낭독: 사용자는 특정 스타일(예: "차분한", "극적인", "비꼬는")의 낭독자가 낭독한 오디오북으로 운율 예측 모델을 미세 조정하여 "낭독자 스타일"을 선택할 수 있습니다.
실시간 인터랙티브 스토리텔링: 게임 엔진이나 인터랙티브 픽션 플랫폼에 통합하여, 서사적 긴장감, 캐릭터 관계, 플레이어 선택에 따라 운율이 동적으로 조정됩니다.
접근성 및 언어 학습: 시각 장애 사용자를 위한 향상된 TTS로, 문학에 대한 더 매력적이고 이해하기 쉬운 접근을 제공합니다. 또한 더 표현력 있고 문맥을 인지하는 발음 모델을 제공하여 언어 학습자를 돕습니다.
크로스 모달 창작 도구: 작가와 오디오 제작자를 위해, 원고에 운율 표시를 제안하거나 검토를 위한 표현력 있는 오디오 초안을 자동 생성하는 도구.
연구 방향 - 감정 및 감성: 텍스트에서의 감성 분석 및 감정 감지를 통합하여 더 세분화된 감정 운율(예: 기쁨, 슬픔, 분노)을 예측하도록 모델을 확장합니다. 이는 카네기 멜론 대학교 언어 기술 연구소와 같은 기관의 연구에서 볼 수 있는 감정 TTS 노력과 유사합니다.
연구 방향 - 종단 간 시스템: 사후 SSML 제어를 넘어서, 운율 예측이 음향 모델의 통합적이고 조건부인 부분이 되는 종단 간 신경망 TTS 시스템(예: Tacotron 2 또는 FastSpeech 2)을 훈련하는 것으로 이동하여, 잠재적으로 더 자연스럽고 일관된 출력을 산출합니다.

8. 참고문헌

Pethe, C., Pham, B., Childress, F. D., Yin, Y., & Skiena, S. (2025). Prosody Analysis of Audiobooks. arXiv preprint arXiv:2310.06930v3.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780.
Song, K., et al. (2020). MPNet: Masked and Permuted Pre-training for Language Understanding. Advances in Neural Information Processing Systems 33 (NeurIPS 2020).
Google Cloud. (n.d.). Text-to-Speech. Retrieved from https://cloud.google.com/text-to-speech
World Wide Web Consortium (W3C). (2010). Speech Synthesis Markup Language (SSML) Version 1.1. W3C Recommendation.
Zen, H., et al. (2019). LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech. Interspeech 2019.

분석가 관점: 비판적 해체

핵심 통찰: 이 논문은 단순히 로봇이 더 인간적으로 들리게 만드는 것이 아닙니다. 이는 서사적 전달의 암묵적 규칙을 역공학하기 위해 거대하고 활용되지 않은 데이터셋—인간 오디오북 공연—을 교묘하게 활용한 것입니다. 저자들은 수십억 달러 규모의 오디오북 산업이 사실상 표현력 있는 음성을 위한 거대한, 기존에 존재하는 주석 집합이라는 점을 올바르게 지적합니다. 그들의 핵심 통찰은 낭독자를 텍스트적 감정에 대한 고해상도 센서로 취급하는 것으로, CycleGAN(Zhu et al., 2017)이 짝을 이루지 않은 이미지 세트를 사용하여 스타일 변환을 학습하는 방식과 유사합니다—여기서 "스타일"은 운율적 공연입니다.

논리적 흐름: 논리는 설득력이 있습니다: 1) 텍스트와 오디오를 정렬하여 지도 학습 데이터셋 생성. 2) 강력한 NLP(MPNet)를 사용하여 텍스트 이해. 3) 순차 모델(LSTM)을 사용하여 문맥을 운율에 매핑. 4) 상관관계 지표에서 상용 거대 기업(Google)을 제압. 데이터 생성부터 모델 우월성까지의 흐름은 깔끔하며 그들의 22/24 및 23/24 승률로 잘 뒷받침됩니다. 그러나 이 연결은 최종적이고 결정적인 단계인 주관적 청취자 선호도에서 약해집니다. 12/22 결과는 통계적으로 빈약하며 AI 오디오에서의 영원한 "좋은 지표, 평범한 경험" 문제를 드러냅니다.

강점과 결점: 강점은 데이터셋과 객관적인 운율 윤곽 포착에서 기준선 TTS에 대한 명확하고 정량화 가능한 우월성에서 부인할 수 없습니다. 캐릭터 수준 분석(남성 vs 여성, 서사 vs 대화)은 모델에 대한 검증과 인간 공연에 대한 매혹적인 통찰을 모두 제공하는 실증적 관찰의 보석입니다. 주요 결점은 사후 SSML 해킹에 의존한다는 점입니다. 어떤 오디오 엔지니어라도 말하듯이, 일반적인 TTS 음성에 사후적으로 운율 제어를 적용하는 것은 종종 인공적이고 단절된 느낌을 줍니다—마치 열악한 녹음에 그래픽 이퀄라이저를 사용하는 것처럼요. 인간 평가 결과는 이 한계를 외치고 있습니다. 모델은 올바른 음을 예측하지만, 합성 엔진은 그것을 제대로 연주할 수 없습니다. FastSpeech 2와 같은 모델에서 선구한 것처럼, 더 야심찬 종단 간 접근 방식이 필요하지만 더 어려운 다음 단계입니다.

실행 가능한 통찰: 제품 팀의 경우, 즉각적인 시사점은 이 데이터셋과 모델을 라이선스하거나 기반으로 하여 기존 TTS 제품에 "스토리텔러" 또는 "표현력" 모드를 추가하는 것입니다—이는 실행 가능한 단기 기능입니다. 연구자들에게 경로는 두 가지입니다: 첫째, 이 운율 예측을 신경망 TTS 시스템의 음향 모델에 직접 통합하여 SSML을 넘어서는 것입니다. 둘째, 세 가지 기본 속성을 넘어서 목소리 품질(숨소리, 거침)과 더 미묘한 감정 상태를 포괄하도록 분석을 확장하는 것입니다. 아마도 감정 음성 분석을 위한 MSP-Podcast 코퍼스와 같은 자원을 활용할 수 있을 것입니다. 이 논문은 연구의 풍부한 광맥을 성공적으로 열었습니다; 이제 광석을 정제하는 어려운 작업이 시작됩니다.

목차