J-MAC：用於語音合成的日語多說話者有聲書語料庫

1. 簡介

本文介紹了J-MAC（日語多說話者有聲書語料庫），這是一個新穎的語音語料庫，旨在推進富有表現力、具上下文感知能力的語音合成研究，特別針對有聲書應用。作者認為，雖然朗讀式文字轉語音（TTS）已達到接近人聲的品質，但下一個前沿領域涉及處理複雜的跨句子上下文、說話者特定的表現力以及敘事流暢度——這些對於生成引人入勝的有聲書至關重要。缺乏高品質、多說話者的有聲書語料庫一直是一個重大瓶頸。J-MAC透過提供一種方法，從專業旁白者朗讀的商業有聲書中自動建構此類語料庫來解決此問題，並將生成的資料集開源。

2. 語料庫建構

建構流程是一個三階段過程，專為自動化和語言獨立性而設計。

2.1 資料收集

有聲書的選擇基於兩個主要標準：1) 具備準確的參考文本（最好是版權已過期的小說，以避免自動語音辨識在專有名詞上出錯），以及 2) 存在由不同專業說話者旁白的多個版本，以捕捉多樣化的表現風格。這優先考慮說話者的多樣性，而非單一說話者的大量資料。

2.2 資料清理與對齊

原始音訊經過處理，以提取乾淨的語音片段並將其與對應文本精確對齊。這涉及源分離、使用連結主義者時間分類（CTC）進行粗略對齊，以及使用語音活動檢測（VAD）進行細粒度精細化處理。

3. 技術方法論

3.1 人聲-樂器分離

為了從有聲書製作中潛在的背景音樂或音效中分離出乾淨的語音，採用了源分離模型（例如基於深度聚類或Conv-TasNet的模型）。此步驟對於為合成模型獲取高保真度的訓練資料至關重要。

3.2 基於CTC的對齊

一個經過CTC訓練的自動語音辨識模型提供了音訊波形與文本序列之間的初始粗略對齊。CTC損失函數 $\mathcal{L}_{CTC} = -\log P(\mathbf{y}|\mathbf{x})$，其中 $\mathbf{x}$ 是輸入序列，$\mathbf{y}$ 是目標標籤序列，允許在不強制分段的情況下進行對齊。

3.3 基於VAD的精細化處理

粗略的CTC對齊結果使用語音活動檢測系統進行精細化。此步驟移除非語音片段（停頓、呼吸聲）並調整邊界，以確保每個音訊片段準確對應一個文本單元（例如一個句子），從而提高文本-音訊配對的精確度。

4. 實驗結果與評估

作者使用在J-MAC上訓練的模型進行了有聲書語音合成評估。主要發現包括：

模型改進具有普遍性： 對合成架構的改進提升了語料庫中不同說話者輸出語音的自然度。
糾纏因素： 感知到的自然度受到合成方法、說話者聲音特徵以及書籍內容本身之間複雜交互作用的強烈影響。分離這些因素仍然是一個挑戰。

圖表描述（隱含）： 一個假設的長條圖將顯示不同合成系統（例如 Tacotron2、FastSpeech2）和不同J-MAC說話者在自然度方面的平均意見分數（MOS）。該圖表可能會顯示同一模型在不同說話者間的差異，以及先進模型在所有說話者中一致的改進趨勢，從視覺上證實了兩個關鍵見解。

5. 關鍵見解與討論

J-MAC成功地提供了一個可擴展、自動化的流程，用於創建富有表現力的語音語料庫。
多說話者、相同文本的設計是研究說話者身份和表現力的一個獨特優勢。
評估結果強調，未來的有聲書TTS模型必須考慮內容、說話者和風格之間的糾纏特性。

6. 原創分析：產業觀點

核心見解： J-MAC論文不僅僅是關於一個新的資料集；它是一項策略性舉措，旨在將TTS範式從孤立的語句生成轉向敘事智能。雖然像WaveNet和Tacotron這樣的模型征服了保真度，但它們在很大程度上忽略了語音的宏觀結構。J-MAC透過提供來自多位專業說話者的平行敘事，成為模型學習不僅如何說話，而且如何表演一個故事的必要基礎。這與更廣泛的產業趨勢相符，例如Google的AudioLM論文中所見，該論文旨在以具上下文感知能力、分層的方式對音訊進行建模。

邏輯流程： 作者正確地識別了資料瓶頸。他們的解決方案是務實的：挖掘現有的高品質藝術作品（有聲書），而不是委託新的錄音。技術流程是精明的——將成熟技術（CTC、VAD）以新穎的組合方式應用於一個特定、高價值的目標。然後，評估利用這個新資源揭示了一個關鍵且不明顯的發現：在表現力合成中，你無法為一個與說話者無關的「最佳模型」進行優化。表現與說話者身份密不可分。

優點與缺點： 主要優點是語料庫的設計原則。選擇專業說話者和相同文本進行比較，對於可控性研究來說是絕佳的。自動化流程對可重現性是一大貢獻。然而，論文的缺點是其初步的評估。「糾纏因素」的見解至關重要，但僅是陳述。需要更深入的分析，或許可以使用風格遷移文獻中的技術（例如全域風格標記中的編碼器架構，或CycleGAN-VC中探索的分離方法）。有多少變異是由於聲學音色、韻律風格或語義解釋造成的？論文打開了大門，但並未深入探討。

可操作的見解： 對於研究人員：使用J-MAC來基準測試分離技術。對於產品團隊：這項工作表明，下一代用於播客、廣告和書籍的語音AI不會來自更多的朗讀式資料，而是來自敘事表演資料。開始策劃富有表現力的長篇資料集。方法論本身是可輸出的——想像一下「播客版J-MAC」或「電影預告片版J-MAC」。核心教訓是，在基礎模型的時代，像J-MAC這樣結構獨特、高品質資料集的策略價值，可能超過與其一同發表的任何單一模型架構。

7. 技術細節與數學公式

對齊過程依賴於CTC前向-後向演算法。給定長度為 $T$ 的輸入序列 $\mathbf{x}$ 和長度為 $L$ 的目標序列 $\mathbf{l}$，CTC透過引入空白標記（$\epsilon$）並允許重複，定義了對齊上的分佈。目標的機率是所有有效對齊 $\pi$ 的總和：

$P(\mathbf{l} | \mathbf{x}) = \sum_{\pi \in \mathcal{B}^{-1}(\mathbf{l})} P(\pi | \mathbf{x})$

其中 $\mathcal{B}$ 是摺疊重複標記並移除空白的函數。VAD精細化可以表述為一個分段任務，尋找邊界 $\{t_i\}$，以最大化片段內語音和片段間非語音的可能性，通常使用基於能量的特徵或訓練好的分類器。

8. 分析框架：個案研究

情境： 評估說話者風格對有聲書合成中感知「吸引力」的影響。

框架應用：

資料分區： 從J-MAC中選取兩位專業說話者（A和B），他們旁白了同一本小說的同一章節。
特徵提取： 對於章節中的每個語句，使用OpenSMILE或Praat等工具提取低階描述符（LLD），例如音高輪廓、能量動態和停頓持續時間。同時使用預訓練模型（如HuBERT）提取高階風格嵌入。
對比分析： 計算說話者A和說話者B對於相同文本內容的LLD分佈之間的統計差異（例如使用t檢定或KL散度）。這量化了他們獨特的韻律「指紋」。
合成與評估： 訓練兩個TTS模型：一個在說話者A的資料上，一個在說話者B的資料上。合成一個訓練期間未見過的相同小說段落。進行聽力測試，評估者對每個合成結果的「表現力」和「敘事吸引力」進行評分。
相關性： 將客觀的風格差異（步驟3）與主觀的吸引力分數（步驟4）相關聯。這個由J-MAC結構所啟用的框架，可以分離出哪些聲學特徵對感知的表演品質貢獻最大。

這個個案研究展示了J-MAC如何促進因果分析，超越相關性，理解富有表現力語音的構成要素。

9. 未來應用與研究方向

富有表現力的語音克隆與客製化： J-MAC的多說話者資料非常適合開發少樣本或零樣本語音適應系統，這些系統可以模仿說話者的敘事風格，而不僅僅是他們的音色。
分離式表徵學習： 未來的工作可以使用J-MAC來訓練模型，將內容、說話者身份和表現風格分離到不同的潛在空間中，從而實現對合成的細粒度控制。
跨語言有聲書合成： 該方法論可以應用於其他語言以建立類似的語料庫，從而促進在翻譯或配音中保留表現風格的研究。
AI輔助內容創作： 與大型語言模型（LLM）整合，可能催生能夠以特定旁白者風格撰寫和表演短篇故事或個人化音訊內容的系統。
無障礙工具： 為任何數位文本按需生成高品質、富有表現力的有聲書，極大地擴展了視障用戶的訪問範圍。

10. 參考文獻

J. Shen, 等人, "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions," ICASSP, 2018.
A. Vaswani, 等人, "Attention Is All You Need," NeurIPS, 2017.
Y. Ren, 等人, "FastSpeech: Fast, Robust and Controllable Text to Speech," NeurIPS, 2019.
A. v. d. Oord, 等人, "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499, 2016.
J.-Y. Zhu, 等人, "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," ICCV, 2017. (CycleGAN)
Y. Wang, 等人, "Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis," ICML, 2018.
Google AI, "AudioLM: A Language Modeling Approach to Audio Generation," Google Research Blog, 2022.
A. Graves, 等人, "Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks," ICML, 2006.