J-MAC: 음성 합성을 위한 일본어 다중 화자 오디오북 코퍼스

1. 서론

본 논문은 표현적이고 맥락을 인지하는 음성 합성, 특히 오디오북 응용 분야의 연구를 발전시키기 위해 설계된 새로운 음성 코퍼스인 J-MAC (Japanese Multi-speaker Audiobook Corpus)를 소개합니다. 저자들은 낭독 스타일 TTS(Text-to-Speech)는 인간 수준에 근접한 품질을 달성했지만, 다음 도전 과제는 설득력 있는 오디오북 생성에 필수적인 복잡한 문장 간 맥락, 화자별 표현력, 내러티브 흐름을 처리하는 것이라고 주장합니다. 고품질의 다중 화자 오디오북 코퍼스 부족은 중요한 병목 현상이었습니다. J-MAC은 전문 내레이터가 낭독한 상용 오디오북으로부터 이러한 코퍼스를 자동으로 구축하는 방법을 제공하여 결과 데이터셋을 오픈소스로 공개함으로써 이 문제를 해결합니다.

2. 코퍼스 구축

구축 파이프라인은 자동화와 언어 독립성을 위해 설계된 3단계 프로세스입니다.

2.1 데이터 수집

오디오북은 두 가지 주요 기준에 따라 선정됩니다: 1) 정확한 참조 텍스트의 가용성 (특히 고유명사에 대한 ASR 오류를 피하기 위해 저작권이 만료된 소설을 선호함), 2) 다양한 표현 스타일을 포착하기 위해 서로 다른 전문 화자가 낭독한 여러 버전의 존재. 이는 단일 화자로부터의 데이터 양보다 화자 다양성을 우선시합니다.

2.2 데이터 정제 및 정렬

원시 오디오는 깨끗한 음성 세그먼트를 추출하고 이를 해당 텍스트와 정확하게 정렬하기 위해 처리됩니다. 여기에는 소스 분리, Connectionist Temporal Classification (CTC)를 이용한 대략적 정렬, Voice Activity Detection (VAD)를 이용한 세밀한 정제가 포함됩니다.

3. 기술적 방법론

3.1 보컬-악기 분리

오디오북 제작에 포함될 수 있는 배경 음악이나 음향 효과로부터 깨끗한 음성을 분리하기 위해, 소스 분리 모델 (Deep Clustering이나 Conv-TasNet 기반 모델 등)이 사용됩니다. 이 단계는 합성 모델을 위한 고품질 학습 데이터를 얻는 데 중요합니다.

3.2 CTC 기반 정렬

CTC로 훈련된 ASR 모델은 오디오 파형과 텍스트 시퀀스 사이의 초기, 대략적인 정렬을 제공합니다. CTC 손실 함수 $\mathcal{L}_{CTC} = -\log P(\mathbf{y}|\mathbf{x})$ (여기서 $\mathbf{x}$는 입력 시퀀스, $\mathbf{y}$는 목표 레이블 시퀀스)는 강제 분할 없이 정렬을 가능하게 합니다.

3.3 VAD 기반 정제

대략적인 CTC 정렬은 Voice Activity Detection 시스템을 사용하여 정제됩니다. 이 단계는 비음성 세그먼트(일시 정지, 숨소리)를 제거하고 경계를 조정하여 각 오디오 세그먼트가 텍스트 단위(예: 문장)에 정확히 대응하도록 하여 텍스트-오디오 쌍의 정밀도를 향상시킵니다.

4. 실험 결과 및 평가

저자들은 J-MAC으로 훈련된 모델을 사용하여 오디오북 음성 합성 평가를 수행했습니다. 주요 결과는 다음과 같습니다:

모델 개선의 일반화: 합성 아키텍처에 대한 개선은 코퍼스 내 서로 다른 화자들에 걸쳐 출력 음성의 자연스러움을 향상시켰습니다.
뒤엉킨 요인들: 인지된 자연스러움은 합성 방법, 화자의 음성 특성, 책 내용 자체 간의 복잡한 상호작용에 의해 강하게 영향을 받았습니다. 이러한 요인들을 분리하는 것은 여전히 과제로 남아 있습니다.

차트 설명 (암시적): 가상의 막대 그래프는 다양한 합성 시스템(예: Tacotron2, FastSpeech2)과 서로 다른 J-MAC 화자들에 대한 자연스러움의 평균 의견 점수(MOS)를 보여줄 것입니다. 이 차트는 동일 모델에 대해 화자별로 차이를 보이고, 모든 화자에 대해 고급 모델의 일관된 개선 추세를 보여주며, 두 가지 주요 통찰을 시각적으로 확인시켜 줄 것입니다.

5. 주요 통찰 및 논의

J-MAC은 표현적 음성 코퍼스를 생성하기 위한 확장 가능하고 자동화된 파이프라인을 성공적으로 제공합니다.
다중 화자, 동일 텍스트 설계는 화자 정체성과 표현력을 연구하는 데 독특한 강점입니다.
평가는 미래의 오디오북 TTS 모델이 내용, 화자, 스타일의 뒤엉킨 본질을 고려해야 함을 강조합니다.

6. 원본 분석: 산업적 관점

핵심 통찰: J-MAC 논문은 단순히 새로운 데이터셋에 관한 것이 아닙니다. 이는 TTS 패러다임을 고립된 발화 생성에서 내러티브 인텔리전스로 전환하기 위한 전략적 행보입니다. WaveNet이나 Tacotron과 같은 모델들이 충실도를 정복했지만, 그들은 음성의 거시적 구조를 대체로 무시했습니다. J-MAC은 여러 전문 화자의 병렬 내러티브를 제공함으로써, 모델이 단지 어떻게 말하는지가 아니라 어떻게 이야기를 연기하는지 배우기 위한 필수 기반이 됩니다. 이는 오디오를 맥락을 인지하고 계층적인 방식으로 모델링하려는 Google의 AudioLM 논문과 같은 작업에서 볼 수 있는 더 넓은 산업 트렌드와 일치합니다.

논리적 흐름: 저자들은 데이터 병목 현상을 올바르게 지적합니다. 그들의 해결책은 실용적입니다: 새로운 녹음을 의뢰하기보다는 기존의 고품질 예술 작품(오디오북)을 채굴하는 것입니다. 기술적 파이프라인은 교묘합니다—특정한 고부가가치 목표를 위해 성숙된 기술(CTC, VAD)을 새로운 조합으로 활용합니다. 평가는 이 새로운 자원을 사용하여 중요한, 명백하지 않은 발견을 표면화합니다: 표현적 합성에서는 화자에 무관한 "최고의 모델"을 최적화할 수 없습니다. 성능은 화자 정체성과 불가분하게 연결되어 있습니다.

강점과 결점: 주요 강점은 코퍼스 설계 원칙입니다. 전문 화자와 동일 텍스트 비교 선택은 제어 가능성 연구에 탁월합니다. 자동화된 파이프라인은 재현성에 대한 중요한 기여입니다. 그러나 논문의 결점은 초기 단계의 평가입니다. "뒤엉킨 요인" 통찰은 중요하지만 단순히 언급만 되었습니다. 더 깊은 분석, 아마도 스타일 변환 문헌의 기술(예: Global Style Tokens의 인코더 아키텍처나 CycleGAN-VC에서 탐구된 분리 방법)을 사용한 분석이 필요합니다. 분산의 얼마나 많은 부분이 음향적 음색 대 운율 스타일 대 의미 해석 때문인가요? 논문은 문을 열었지만 그 안으로 들어가지는 않습니다.

실행 가능한 통찰: 연구자들을 위해: 분리 기술의 벤치마크에 J-MAC을 사용하세요. 제품 팀을 위해: 이 작업은 팟캐스트, 광고, 책을 위한 차세대 음성 AI가 더 많은 낭독 스타일 데이터가 아니라 내러티브 연기 데이터에서 나올 것임을 시사합니다. 표현적이고 장편의 데이터셋을 큐레이션하기 시작하세요. 방법론 자체는 수출 가능합니다—"팟캐스트용 J-MAC"이나 "영화 예고편용 J-MAC"을 상상해 보세요. 핵심 교훈은 기초 모델 시대에 J-MAC과 같이 독특하게 구조화된 고품질 데이터셋의 전략적 가치는 그와 함께 발표된 어떤 단일 모델 아키텍처의 가치보다 클 수 있다는 것입니다.

7. 기술적 상세 및 수학적 공식화

정렬 과정은 CTC 순방향-역방향 알고리즘에 의존합니다. 길이 $T$의 입력 시퀀스 $\mathbf{x}$와 길이 $L$의 목표 시퀀스 $\mathbf{l}$이 주어졌을 때, CTC는 공백 토큰($\epsilon$)을 도입하고 반복을 허용함으로써 정렬에 대한 분포를 정의합니다. 목표의 확률은 모든 유효한 정렬 $\pi$에 대한 합입니다:

$P(\mathbf{l} | \mathbf{x}) = \sum_{\pi \in \mathcal{B}^{-1}(\mathbf{l})} P(\pi | \mathbf{x})$

여기서 $\mathcal{B}$는 반복 토큰을 축소하고 공백을 제거하는 함수입니다. VAD 정제는 분할 작업으로 공식화될 수 있으며, 세그먼트 내에서는 음성의 가능성을, 세그먼트 사이에서는 비음성의 가능성을 최대화하는 경계 $\{t_i\}$를 찾는 것으로, 종종 에너지 기반 특징이나 훈련된 분류기를 사용합니다.

8. 분석 프레임워크: 사례 연구

시나리오: 오디오북 합성에서 화자 스타일이 인지된 "몰입감"에 미치는 영향 평가.

프레임워크 적용:

데이터 분할: J-MAC에서 소설의 동일한 장을 낭독한 두 전문 화자(A & B)를 선택합니다.
특징 추출: 장 내 각 발화에 대해 OpenSMILE이나 Praat와 같은 도구를 사용하여 피치 곡선, 에너지 역학, 일시 정지 지속 시간과 같은 저수준 기술자(LLD)를 추출합니다. 또한 HuBERT와 같은 사전 훈련된 모델을 사용하여 고수준 스타일 임베딩을 추출합니다.
대조 분석: 동일한 텍스트 내용에 대해 화자 A와 화자 B의 LLD 분포 간 통계적 차이(예: t-검정 또는 KL 발산 사용)를 계산합니다. 이는 그들의 독특한 운율 "지문"을 정량화합니다.
합성 및 평가: 두 개의 TTS 모델을 훈련시킵니다: 하나는 화자 A 데이터로, 다른 하나는 화자 B 데이터로. 훈련 중 보지 못한 동일한 소설 구절을 합성합니다. 평가자가 각 합성물에 대해 "표현력"과 "내러티브 몰입감"을 평가하는 청취 테스트를 수행합니다.
상관 관계: 객관적 스타일 차이(3단계)와 주관적 몰입감 점수(4단계) 간의 상관 관계를 분석합니다. J-MAC의 구조로 가능해진 이 프레임워크는 인지된 연기 품질에 가장 기여하는 음향적 특징이 무엇인지 분리할 수 있습니다.

이 사례 연구는 J-MAC이 표현적 음성의 구성 요소를 이해하기 위해 상관 관계를 넘어 인과 관계 분석을 어떻게 촉진하는지 보여줍니다.

9. 미래 응용 및 연구 방향

표현적 음성 복제 및 맞춤화: J-MAC의 다중 화자 데이터는 화자의 음색뿐만 아니라 내러티브 스타일을 모방할 수 있는 소수샷 또는 제로샷 음성 적응 시스템 개발에 이상적입니다.
분리된 표현 학습: 향후 연구는 J-MAC을 사용하여 내용, 화자 정체성, 표현적 스타일을 별도의 잠재 공간으로 분리하는 모델을 훈련시켜 합성에 대한 세밀한 제어를 가능하게 할 수 있습니다.
교차 언어 오디오북 합성: 이 방법론은 다른 언어에 적용되어 유사한 코퍼스를 구축할 수 있으며, 번역이나 더빙 시 표현적 스타일 보존에 대한 연구를 가능하게 합니다.
AI 지원 콘텐츠 생성: 대규모 언어 모델(LLM)과의 통합은 특정 내레이터의 스타일로 단편 소설이나 맞춤형 오디오 콘텐츠를 쓰고 연기하는 시스템으로 이어질 수 있습니다.
접근성 도구: 모든 디지털 텍스트에 대해 주문형 고품질의 표현적 오디오북을 생성하여 시각 장애 사용자의 접근성을 크게 확장합니다.

10. 참고문헌

J. Shen, 외, "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions," ICASSP, 2018.
A. Vaswani, 외, "Attention Is All You Need," NeurIPS, 2017.
Y. Ren, 외, "FastSpeech: Fast, Robust and Controllable Text to Speech," NeurIPS, 2019.
A. v. d. Oord, 외, "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499, 2016.
J.-Y. Zhu, 외, "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," ICCV, 2017. (CycleGAN)
Y. Wang, 외, "Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis," ICML, 2018.
Google AI, "AudioLM: A Language Modeling Approach to Audio Generation," Google Research Blog, 2022.
A. Graves, 외, "Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks," ICML, 2006.