オーディオブックの韻律分析：テキスト読み上げ向上のためのNLPモデル

1. 序論と概要

本論文「オーディオブックの韻律分析」は、現代のテキスト読み上げ（TTS）システムにおける重大なギャップ、すなわち、人間による朗読が特徴的な表現豊かで劇的な発声を再現できないという課題に取り組む。商用TTSは一般的な音声において高い自然性を達成しているが、対話、感情、描写に富んだ物語テキストでは不十分である。本研究の核心的な主張は、高次の自然言語処理（NLP）分析―具体的にはキャラクターの識別、対話、物語構造の特定―を活用して韻律的特徴（ピッチ、音量、話速）を予測し、合成オーディオブックの品質を大幅に向上させることができるというものである。

本研究では、93組の整列した書籍-オーディオブックペアからなる新規データセットを提示し、このデータで訓練されたモデルが、人間の韻律パターンとの相関において最先端の商用TTSベースライン（Google Cloud TTS）を上回ることを実証する。

93

整列済み書籍-オーディオブックペア

1806

分析された章数

22/24

ピッチ予測が優れた書籍数

23/24

音量予測が優れた書籍数

2. 方法論とデータセット

2.1 データセット構築

本研究の基盤は、93の小説とそれに対応する人間による朗読オーディオブックからなる、細心の注意を払って構築されたデータセットである。このデータセットには、テキストと音声が文レベルで整列された1,806の章が含まれており、精密な分析を可能にしている。このデータセットは公開されており、音声およびNLPコミュニティにとって貴重なリソースとなっている。整列処理は、テキスト内の各文に対して正確な韻律ラベル（ピッチ、音量、速度）を抽出するために極めて重要である。

2.2 韻律属性抽出

整列されたオーディオブックから、3つの主要な韻律属性が文レベルで抽出される：

ピッチ（基本周波数 F0）： 声帯の振動率を示す基本周波数。単位はヘルツ（Hz）。
音量（強度/エネルギー）： 音声信号の振幅または大きさ。単位はデシベル（dB）。
速度（話速）： 発話の速さ。通常、1秒あたりの音節数で測定される。

これらの属性は、予測モデルの目的変数として機能する。

2.3 モデルアーキテクチャ

主要なモデルは、MPNet（Masked and Permuted Pre-training for Language Understanding）文埋め込みを基盤とした長短期記憶（LSTM）ネットワークである。MPNetは入力テキストの豊かな文脈的表現を提供する。LSTM層は、物語内の連続的な依存関係をモデル化し、ピッチ、音量、速度の連続値を予測する。このアーキテクチャは、物語理解に不可欠な長距離の文脈的手がかりを捉える能力のために選択された。

3. 主要な知見と分析

3.1 キャラクターレベルの韻律パターン

重要な経験的知見として、人間の朗読者はキャラクター属性と物語の文脈に基づいて体系的に韻律を調整することが明らかになった。分析により以下が示された：

主要な2人のキャラクターの性別が異なる31冊の書籍のうち21冊において、朗読者は男性キャラクターを描写するためにより低いピッチとより高い音量を使用した。
朗読者は、キャラクターの性別に関係なく、対話部分と比較して物語部分で一貫して低いピッチを使用した。

これは、プロの朗読者が使用する暗黙の演技ルールを定量化し、モデルが学習するための明確な信号を提供する。

3.2 モデル性能 vs. 商用TTS

提案モデルが予測した韻律属性は、Google Cloud Text-to-Speechのデフォルト出力と比較して、人間の朗読とはるかに高い相関を示した。

ピッチ： テストセットの24冊中22冊で、モデルの予測は人間の朗読とより良い相関を示した。
音量： モデルの予測は24冊中23冊でより良い相関を示した。

これは、一般的なTTSシステムが見逃している微妙な人間の韻律パターンを捉えるモデルの有効性を示している。

4. 技術的実装

4.1 数学的定式化

韻律予測タスクは回帰問題として定式化される。MPNet埋め込み $\mathbf{e}_S$ で表現される入力文 $S$ が与えられたとき、パラメータ $\theta$ でパラメータ化されたモデル $f_\theta$ は韻律ベクトル $\mathbf{p}$ を予測する： $$\mathbf{p} = [\hat{pitch}, \hat{volume}, \hat{rate}]^T = f_\theta(\mathbf{e}_S)$$ モデルは、その予測 $\hat{\mathbf{p}}$ と人間の音声から抽出された真の韻律値 $\mathbf{p}_{gt}$ との間の平均二乗誤差（MSE）損失を最小化するように訓練される： $$\mathcal{L}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \| \hat{\mathbf{p}}_i - \mathbf{p}_{gt,i} \|^2_2$$

4.2 LSTMアーキテクチャ詳細

コアとなる系列モデルは標準的なLSTMセルである。各ステップ $t$（文に対応）において、入力 $\mathbf{x}_t$（MPNet埋め込み）と前の状態に基づいて、隠れ状態 $\mathbf{h}_t$ とセル状態 $\mathbf{c}_t$ を更新する： $$\mathbf{i}_t = \sigma(\mathbf{W}_{xi}\mathbf{x}_t + \mathbf{W}_{hi}\mathbf{h}_{t-1} + \mathbf{b}_i)$$ $$\mathbf{f}_t = \sigma(\mathbf{W}_{xf}\mathbf{x}_t + \mathbf{W}_{hf}\mathbf{h}_{t-1} + \mathbf{b}_f)$$ $$\mathbf{o}_t = \sigma(\mathbf{W}_{xo}\mathbf{x}_t + \mathbf{W}_{ho}\mathbf{h}_{t-1} + \mathbf{b}_o)$$ $$\tilde{\mathbf{c}}_t = \tanh(\mathbf{W}_{xc}\mathbf{x}_t + \mathbf{W}_{hc}\mathbf{h}_{t-1} + \mathbf{b}_c)$$ $$\mathbf{c}_t = \mathbf{f}_t \odot \mathbf{c}_{t-1} + \mathbf{i}_t \odot \tilde{\mathbf{c}}_t$$ $$\mathbf{h}_t = \mathbf{o}_t \odot \tanh(\mathbf{c}_t)$$ ここで、$\sigma$ はシグモイド関数、$\odot$ は要素ごとの乗算、$\mathbf{W}$ と $\mathbf{b}$ は学習可能なパラメータである。最終的な隠れ状態 $\mathbf{h}_t$ は全結合層を通過し、3次元の韻律予測を生成する。

5. 実験結果

5.1 相関指標と図1

主要な評価指標は、章全体における予測韻律曲線と人間朗読韻律曲線との間の相関係数（例：ピアソンのr）である。論文の図1は、24冊のテスト書籍における提案システムとGoogle Cloud TTSの人間-TTS相関を比較したドットプロットを示している。

チャート説明（図1a - ピッチ）： x軸は異なる書籍を表す。各書籍には2つの点がある：1つは提案モデルのピッチと人間朗読との相関、もう1つはGoogle TTSの相関である。プロットは、大多数の書籍でモデルの点（おそらく別の色）がGoogleの点よりも高いことを視覚的に示し、22/24という主張を定量的に裏付けている。
チャート説明（図1b - 音量）： 音量相関についての同様のドットプロットで、提案モデルのさらに優れた性能を示し、23/24という結果に対応している。

これらのプロットは、モデルが人間の物語韻律を模倣する優れた能力の強力な視覚的証拠を提供する。

5.2 人間による評価調査

相関指標を超えて、人間による評価調査が実施された。モデルの韻律予測は、TTSエンジンを制御するためのSSML（Speech Synthesis Markup Language）タグを生成するために使用された。リスナーには2つのバージョンが提示された：デフォルトのGoogle TTS音声と、モデルの予測を使用したSSML拡張音声である。結果は微妙であった：わずかな過半数（22名の被験者中12名）がSSML拡張朗読を好んだが、その選好は圧倒的ではなかった。これは主観的な音声品質評価の複雑さを強調し、モデルが客観的な韻律パターンをうまく捉えている一方で、それらを最終的な音声出力にシームレスに統合することは依然として課題であることを示唆している。

6. 分析フレームワークとケーススタディ

物語韻律分析のフレームワーク：

テキスト分割と注釈付け： 小説を文に分割する。以下のためのNLPパイプラインを実行：
- 固有表現認識（NER）によるキャラクターの識別。
- 引用帰属による対話とキャラクターの関連付け。
- 文を「物語」、「対話」、「描写」として分類するテキスト分類。
文脈的特徴エンジニアリング： 各文に対して、以下の特徴を作成：
- バイナリフラグ：`is_dialogue`、`is_narrative`。
- 話者のキャラクターID（対話の場合）。
- メタデータ：キャラクターの性別（外部知識ベースから）。
- 意味内容を捉える文埋め込み（MPNet）。
韻律ラベル抽出： 時間整列された音声から、各文のピッチ（F0）、音量（RMSエネルギー）、話速（音節数/時間）を抽出する。
モデル訓練と推論： {特徴 → 韻律ラベル} のペアでLSTMモデル（4.2節）を訓練する。新しいテキストに対しては、訓練済みモデルを適用して韻律属性を予測する。
SSML生成と合成： 予測されたピッチ（相対乗数、例：`+20%`）、音量（例：`+3dB`）、速度（例：`slow`）をSSMLタグに変換する。タグ付けされたテキストを高品質なニューラルTTSエンジン（例：Google、Amazon Polly）に供給して最終的な音声レンダリングを行う。

ケーススタディ - フレームワークの適用： 文「'I will never go back,' he said defiantly.」を考える。フレームワークは以下のように動作する：1) 男性キャラクター（"he"）による対話として識別する。2) モデルは、男性の対話は物語部分よりもしばしば低いピッチと高い音量を持つことを学習しているため、`pitch_shift = -10%`、`volume_boost = +2dB` を予測する可能性がある。3) これらはSSMLとしてレンダリングされる：`I will never go back, he said defiantly.`。結果として得られる合成音声は、意図された劇的な強調を帯びることになる。

7. 将来の応用と方向性

パーソナライズされたオーディオブック朗読： ユーザーは、特定のスタイル（例：「落ち着いた」、「劇的」、「皮肉な」）の朗読者によって読まれたオーディオブックで韻律予測モデルをファインチューニングすることで、「朗読者スタイル」を選択できる可能性がある。
リアルタイムインタラクティブストーリーテリング： ゲームエンジンやインタラクティブフィクションプラットフォームへの統合。物語の緊張感、キャラクター関係、プレイヤーの選択に基づいて韻律が動的に調整される。
アクセシビリティと言語学習： 視覚障害ユーザーのための強化されたTTS。文学へのより魅力的で理解しやすいアクセスを提供する。また、より表現豊かで文脈を考慮した発音モデルを提供することで、言語学習者を支援する可能性がある。
クロスモーダルなクリエイティブツール： 著者や音声制作者向けに、原稿に韻律マーキングを提案したり、レビューのための表現豊かな音声ドラフトを自動生成するツール。
研究方向性 - 感情とセンチメント： テキストからの感情分析や感情検出を組み込むことで、より細かい感情韻律（例：喜び、悲しみ、怒り）を予測するようにモデルを拡張する。カーネギーメロン大学言語技術研究所などの研究機関で見られる感情的TTSの取り組みと同様。
研究方向性 - エンドツーエンドシステム： 事後のSSML制御を超えて、韻律予測が音響モデルの不可欠な条件付け部分であるエンドツーエンドのニューラルTTSシステム（Tacotron 2やFastSpeech 2など）を訓練することへ移行し、より自然で一貫性のある出力を得る可能性がある。

8. 参考文献

Pethe, C., Pham, B., Childress, F. D., Yin, Y., & Skiena, S. (2025). Prosody Analysis of Audiobooks. arXiv preprint arXiv:2310.06930v3.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780.
Song, K., et al. (2020). MPNet: Masked and Permuted Pre-training for Language Understanding. Advances in Neural Information Processing Systems 33 (NeurIPS 2020).
Google Cloud. (n.d.). Text-to-Speech. Retrieved from https://cloud.google.com/text-to-speech
World Wide Web Consortium (W3C). (2010). Speech Synthesis Markup Language (SSML) Version 1.1. W3C Recommendation.
Zen, H., et al. (2019). LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech. Interspeech 2019.

アナリストの視点：批判的考察

核心的洞察： この論文は、単にロボットをより人間らしく聞こえさせることだけではなく、物語の伝達の暗黙のルールをリバースエンジニアリングするために、大規模で未活用のデータセット―人間によるオーディオブックのパフォーマンス―を巧妙に利用している。著者らは、数十億ドル規模のオーディオブック産業が、事実上、表現豊かな音声のための巨大な既存のアノテーションセットであると正しく認識している。彼らの重要な洞察は、朗読者をテキストの感情に対する高精度なセンサーとして扱うことであり、この概念はCycleGAN（Zhu et al., 2017）がスタイル変換を学習するために非ペア画像セットを使用する方法と類似している―ここでの「スタイル」は韻律的パフォーマンスである。

論理的流れ： 論理は説得力がある：1) テキストと音声を整列させて教師ありデータセットを作成する。2) 堅牢なNLP（MPNet）を使用してテキストを理解する。3) 系列モデル（LSTM）を使用して文脈を韻律にマッピングする。4) 相関指標において商用巨人（Google）を自らのゲームで打ち負かす。データ作成からモデルの優位性への流れは明確であり、22/24および23/24という勝率によって十分に支持されている。しかし、この連鎖は最終的で重要なリンク、すなわち主観的なリスナーの選好において弱まる。12/22という結果は統計的に脆弱であり、AI音声における「良い指標、平凡な体験」という永続的な問題を明らかにしている。

強みと欠点： 強みは、データセットと客観的な韻律曲線を捉える点でベースラインTTSを明確に定量的に上回ることにあることは否定できない。キャラクターレベルの分析（男性 vs. 女性、物語 vs. 対話）は、モデルの検証と人間のパフォーマンスへの魅力的な洞察の両方を提供する経験的観察の宝石である。主要な欠点は、事後のSSMLハッキングへの依存である。どんな音響エンジニアでも言うように、一般的なTTS音声に事後的に韻律制御を適用することは、しばしば人工的で断片的に聞こえる―質の悪い録音にグラフィックイコライザーを使用するようなものである。人間による評価結果はこの限界を叫んでいる。モデルは正しい音符を予測するが、合成エンジンはそれらを正しい調子で演奏できない。FastSpeech 2のようなモデルで開拓された、より野心的でエンドツーエンドのアプローチが、必要ではあるがより困難な次のステップである。

実用的な洞察： 製品チームにとって、即座の収穫は、このデータセットとモデルをライセンスまたは構築して、既存のTTS製品に「ストーリーテラー」または「表現豊か」モードを追加することである―近い将来実現可能な機能である。研究者にとって、道筋は二つある：第一に、この韻律予測をSSMLを超えて、ニューラルTTSシステムの音響モデルに直接統合すること。第二に、3つの基本属性を超えて、声質（息づかい、粗さ）やより微妙な感情状態を含むように分析を拡張すること。おそらく感情的発話分析のためのMSP-Podcastコーパスのようなリソースを活用する。この論文は研究の豊かな鉱脈を開くことに成功している。今、鉱石を精製する困難な作業が始まる。

目次