Pilih Bahasa

Analisis Prosodi Buku Audio: Model NLP untuk Penambahbaikan Teks-ke-Pertuturan

Kajian meramal atribut prosodi (nada, kelantangan, kadar) daripada teks naratif menggunakan NLP dan model bahasa, meningkatkan TTS untuk penjanaan buku audio.
audio-novel.com | PDF Size: 0.5 MB
Penilaian: 4.5/5
Penilaian Anda
Anda sudah menilai dokumen ini
Sampul Dokumen PDF - Analisis Prosodi Buku Audio: Model NLP untuk Penambahbaikan Teks-ke-Pertuturan

Kandungan

1. Pengenalan & Gambaran Keseluruhan

Kertas penyelidikan ini, "Analisis Prosodi Buku Audio," menangani jurang kritikal dalam sistem Teks-ke-Pertuturan (TTS) moden: ketidakupayaan untuk meniru vokalisasi ekspresif dan dramatik yang menjadi ciri buku audio yang dituturkan oleh manusia. Walaupun TTS komersial telah mencapai tahap keaslian yang tinggi dalam pertuturan generik, ia gagal dengan teks naratif yang kaya dengan dialog, emosi, dan deskripsi. Tesis terasnya ialah analisis Pemprosesan Bahasa Asli (NLP) peringkat tinggi—khususnya mensasarkan pengenalpastian watak, dialog, dan struktur naratif—boleh digunakan untuk meramal ciri prosodi (nada, kelantangan, kadar pertuturan) dan meningkatkan kualiti buku audio sintetik dengan ketara.

Kerja ini membentangkan set data baharu yang terdiri daripada 93 pasangan buku-buku audio yang diselaraskan dan menunjukkan bahawa model yang dilatih pada data ini mengatasi garis dasar TTS komersial terkini (Google Cloud TTS) dalam berkorelasi dengan corak prosodi manusia.

93

Pasangan Buku-Buku Audio yang Diselaraskan

1806

Bab yang Dianalisis

22/24

Buku dengan Ramalan Nada Lebih Baik

23/24

Buku dengan Ramalan Kelantangan Lebih Baik

2. Metodologi & Set Data

2.1 Pembinaan Set Data

Asas penyelidikan ini ialah set data yang disusun dengan teliti yang merangkumi 93 novel dan buku audio yang dibaca manusia yang sepadan. Set data ini termasuk 1,806 bab dengan penyelarasan peringkat ayat antara teks dan audio, membolehkan analisis yang tepat. Set data ini telah disediakan untuk umum, menyediakan sumber yang berharga untuk komuniti pertuturan dan NLP. Proses penyelarasan adalah penting untuk mengekstrak label prosodi yang tepat (nada, kelantangan, kadar) untuk setiap ayat dalam teks.

2.2 Pengekstrakan Atribut Prosodi

Daripada buku audio yang diselaraskan, tiga atribut prosodi teras diekstrak pada peringkat ayat:

  • Nada (F0): Frekuensi asas, menunjukkan kadar getaran pita suara. Diukur dalam Hertz (Hz).
  • Kelantangan (Intensiti/Tenaga): Amplitud atau kekuatan isyarat pertuturan. Diukur dalam desibel (dB).
  • Kadar (Kadar Pertuturan): Kelajuan penyampaian, sering diukur dalam suku kata per saat.
Atribut ini berfungsi sebagai pembolehubah sasaran untuk model ramalan.

2.3 Seni Bina Model

Model utama ialah rangkaian Memori Jangka Pendek Panjang (LSTM) yang dibina di atas penyematan ayat MPNet (Pra-latihan Bertopeng dan Tertukar untuk Kefahaman Bahasa). MPNet menyediakan perwakilan kontekstual yang kaya bagi teks input. Lapisan LSTM kemudiannya memodelkan kebergantungan berurutan dalam naratif untuk meramal nilai berterusan untuk nada, kelantangan, dan kadar. Seni bina ini dipilih kerana keupayaannya untuk menangkap petunjuk kontekstual jarak jauh yang penting untuk pemahaman naratif.

3. Penemuan & Analisis Utama

3.1 Corak Prosodi Tahap Watak

Satu penemuan empirikal yang signifikan ialah pencerita manusia secara sistematik mengawal selia prosodi berdasarkan atribut watak dan konteks naratif. Analisis mendedahkan:

  • Dalam 21 daripada 31 buku di mana dua watak utama berbeza jantina, pencerita menggunakan nada lebih rendah dan kelantangan lebih tinggi untuk menggambarkan watak lelaki.
  • Pencerita secara konsisten menggunakan nada lebih rendah dalam kawasan naratif berbanding dialog, tanpa mengira jantina watak.
Ini mengukur peraturan persembahan tersirat yang digunakan oleh pencerita profesional, menyediakan isyarat yang jelas untuk model dipelajari.

3.2 Prestasi Model vs. TTS Komersial

Atribut prosodi yang diramalkan oleh model yang dicadangkan menunjukkan korelasi yang jauh lebih tinggi dengan bacaan manusia berbanding output lalai Google Cloud Text-to-Speech.

  • Nada: Ramalan model berkorelasi lebih baik dengan bacaan manusia dalam 22 daripada 24 buku dalam set ujian.
  • Kelantangan: Ramalan model berkorelasi lebih baik dalam 23 daripada 24 buku.
Ini menunjukkan keberkesanan model dalam menangkap corak prosodi manusia yang halus yang terlepas oleh sistem TTS generik.

4. Pelaksanaan Teknikal

4.1 Rumusan Matematik

Tugas ramalan prosodi dirangka sebagai masalah regresi. Diberi ayat input $S$ yang diwakili oleh penyematan MPNetnya $\mathbf{e}_S$, model $f_\theta$ yang diparameterkan oleh $\theta$ meramal vektor prosodi $\mathbf{p}$: $$\mathbf{p} = [\hat{pitch}, \hat{volume}, \hat{rate}]^T = f_\theta(\mathbf{e}_S)$$ Model dilatih untuk meminimumkan kerugian Ralat Min Kuasa Dua (MSE) antara ramalannya $\hat{\mathbf{p}}$ dan nilai prosodi sebenar $\mathbf{p}_{gt}$ yang diekstrak daripada audio manusia: $$\mathcal{L}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \| \hat{\mathbf{p}}_i - \mathbf{p}_{gt,i} \|^2_2$$

4.2 Butiran Seni Bina LSTM

Model urutan teras ialah sel LSTM standard. Pada setiap langkah $t$ (sepadan dengan ayat), ia mengemas kini keadaan tersembunyi $\mathbf{h}_t$ dan keadaan sel $\mathbf{c}_t$ berdasarkan input $\mathbf{x}_t$ (penyematan MPNet) dan keadaan sebelumnya: $$\mathbf{i}_t = \sigma(\mathbf{W}_{xi}\mathbf{x}_t + \mathbf{W}_{hi}\mathbf{h}_{t-1} + \mathbf{b}_i)$$ $$\mathbf{f}_t = \sigma(\mathbf{W}_{xf}\mathbf{x}_t + \mathbf{W}_{hf}\mathbf{h}_{t-1} + \mathbf{b}_f)$$ $$\mathbf{o}_t = \sigma(\mathbf{W}_{xo}\mathbf{x}_t + \mathbf{W}_{ho}\mathbf{h}_{t-1} + \mathbf{b}_o)$$ $$\tilde{\mathbf{c}}_t = \tanh(\mathbf{W}_{xc}\mathbf{x}_t + \mathbf{W}_{hc}\mathbf{h}_{t-1} + \mathbf{b}_c)$$ $$\mathbf{c}_t = \mathbf{f}_t \odot \mathbf{c}_{t-1} + \mathbf{i}_t \odot \tilde{\mathbf{c}}_t$$ $$\mathbf{h}_t = \mathbf{o}_t \odot \tanh(\mathbf{c}_t)$$ di mana $\sigma$ ialah fungsi sigmoid, $\odot$ menandakan pendaraban unsur demi unsur, dan $\mathbf{W}$ dan $\mathbf{b}$ ialah parameter yang boleh dipelajari. Keadaan tersembunyi akhir $\mathbf{h}_t$ dilalui melalui lapisan bersambung penuh untuk menghasilkan ramalan prosodi 3-dimensi.

5. Keputusan Eksperimen

5.1 Metrik Korelasi & Rajah 1

Metrik penilaian utama ialah pekali korelasi (contohnya, Pearson's r) antara kontur prosodi yang diramalkan dan kontur prosodi bacaan manusia merentasi satu bab. Rajah 1 dalam kertas membentangkan plot titik yang membandingkan korelasi manusia-TTS untuk sistem yang dicadangkan dan Google Cloud TTS merentasi 24 buku ujian.

  • Penerangan Carta (Rajah 1a - Nada): Paksi-x mewakili buku yang berbeza. Setiap buku mempunyai dua titik: satu untuk korelasi nada model yang dicadangkan dengan bacaan manusia, dan satu untuk korelasi Google TTS. Plot secara visual menunjukkan titik model (mungkin dalam warna berbeza) lebih tinggi daripada titik Google untuk majoriti besar buku, menyokong secara kuantitatif tuntutan 22/24.
  • Penerangan Carta (Rajah 1b - Kelantangan): Plot titik yang serupa untuk korelasi kelantangan, menunjukkan prestasi yang lebih dominan oleh model yang dicadangkan, sepadan dengan keputusan 23/24.
Plot ini menyediakan bukti visual yang kuat tentang keupayaan unggul model untuk meniru prosodi naratif manusia.

5.2 Kajian Penilaian Manusia

Selain metrik korelasi, satu kajian penilaian manusia telah dijalankan. Ramalan prosodi model digunakan untuk menjana tag SSML (Bahasa Penanda Sintesis Pertuturan) untuk mengawal enjin TTS. Pendengar dibentangkan dengan dua versi: audio Google TTS lalai dan audio dipertingkatkan SSML menggunakan ramalan model. Keputusan adalah halus: majoriti kecil (12 daripada 22 subjek) lebih memilih bacaan dipertingkatkan SSML, tetapi keutamaan itu tidak mengatasi. Ini menyerlahkan kerumitan penilaian kualiti audio subjektif dan mencadangkan bahawa walaupun model menangkap corak prosodi objektif dengan baik, mengintegrasikannya dengan lancar ke dalam output audio akhir masih menjadi cabaran.

6. Kerangka Analisis & Kajian Kes

Kerangka untuk Analisis Prosodi Naratif:

  1. Segmentasi & Anotasi Teks: Bahagikan novel kepada ayat. Jalankan saluran paip NLP untuk:
    • Pengenalpastian Entiti Bernama (NER) untuk mengenal pasti watak.
    • Atribusi petikan untuk mengaitkan dialog dengan watak.
    • Klasifikasi teks untuk melabel ayat sebagai "Naratif," "Dialog," atau "Penerangan."
  2. Kejuruteraan Ciri Kontekstual: Untuk setiap ayat, cipta ciri:
    • Penanda binari: `is_dialogue`, `is_narrative`.
    • ID Watak penutur (jika dalam dialog).
    • Metadata: jantina watak (daripada pangkalan pengetahuan luaran).
    • Penyematan ayat (MPNet) menangkap kandungan semantik.
  3. Pengekstrakan Label Prosodi: Daripada audio yang diselaraskan masa, ekstrak nada (F0), kelantangan (tenaga RMS), dan kadar pertuturan (suku kata/tempoh) untuk setiap ayat.
  4. Latihan Model & Inferens: Latih model LSTM (Seksyen 4.2) pada pasangan {ciri → label prosodi}. Untuk teks baharu, gunakan model terlatih untuk meramal atribut prosodi.
  5. Penjanaan SSML & Sintesis: Tukar nada yang diramalkan (sebagai pengganda relatif, contohnya `+20%`), kelantangan (contohnya `+3dB`), dan kadar (contohnya `slow`) kepada tag SSML. Suapkan teks bertanda kepada enjin TTS neural berkualiti tinggi (contohnya Google, Amazon Polly) untuk pemprosesan audio akhir.
Kajian Kes - Menggunakan Kerangka: Pertimbangkan ayat "'Saya tidak akan kembali,' katanya dengan berani." Kerangka akan: 1) Mengenalinya sebagai dialog yang dituturkan oleh watak lelaki ("he"). 2) Model, setelah mempelajari bahawa dialog lelaki selalunya mempunyai nada lebih rendah dan kelantangan lebih tinggi daripada naratif, mungkin meramal: `pitch_shift = -10%`, `volume_boost = +2dB`. 3) Ini akan diproses sebagai SSML: `Saya tidak akan kembali, katanya dengan berani.`. Pertuturan sintetik yang terhasil akan membawa penekanan dramatik yang dimaksudkan.

7. Aplikasi & Hala Tuju Masa Depan

  • Penceritaan Buku Audio Peribadi: Pengguna boleh memilih "gaya pencerita" (contohnya "tenang," "dramatik," "sarkastik") dengan melaraskan halus model ramalan prosodi pada buku audio yang dibaca oleh pencerita dengan gaya itu.
  • Penceritaan Interaktif Masa Nyata: Integrasi ke dalam enjin permainan atau platform fiksyen interaktif, di mana prosodi diselaraskan secara dinamik berdasarkan ketegangan naratif, hubungan watak, dan pilihan pemain.
  • Aksesibiliti & Pembelajaran Bahasa: TTS dipertingkatkan untuk pengguna cacat penglihatan, menyediakan akses yang lebih menarik dan mudah difahami kepada kesusasteraan. Ia juga boleh membantu pelajar bahasa dengan menyediakan model sebutan yang lebih ekspresif dan sedar konteks.
  • Alat Kreatif Rentas Modal: Untuk penulis dan penerbit audio, alat yang mencadangkan penandaan prosodi dalam manuskrip atau menjana draf audio ekspresif secara automatik untuk semakan.
  • Hala Tuju Penyelidikan - Emosi & Sentimen: Memperluaskan model untuk meramal prosodi emosi yang lebih terperinci (contohnya kegembiraan, kesedihan, kemarahan) dengan menggabungkan analisis sentimen dan pengesanan emosi daripada teks, serupa dengan usaha dalam TTS emosi yang dilihat dalam penyelidikan dari institusi seperti Institut Teknologi Bahasa Universiti Carnegie Mellon.
  • Hala Tuju Penyelidikan - Sistem Hujung-ke-Hujung: Bergerak melebihi kawalan SSML pasca-hoc kepada melatih sistem TTS neural hujung-ke-hujung (seperti Tacotron 2 atau FastSpeech 2) di mana ramalan prosodi adalah bahagian bersyarat yang penting dalam model akustik, berpotensi menghasilkan output yang lebih semula jadi dan padu.

8. Rujukan

  1. Pethe, C., Pham, B., Childress, F. D., Yin, Y., & Skiena, S. (2025). Prosody Analysis of Audiobooks. arXiv preprint arXiv:2310.06930v3.
  2. Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
  3. Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780.
  4. Song, K., et al. (2020). MPNet: Masked and Permuted Pre-training for Language Understanding. Advances in Neural Information Processing Systems 33 (NeurIPS 2020).
  5. Google Cloud. (n.d.). Text-to-Speech. Diambil dari https://cloud.google.com/text-to-speech
  6. World Wide Web Consortium (W3C). (2010). Speech Synthesis Markup Language (SSML) Version 1.1. W3C Recommendation.
  7. Zen, H., et al. (2019). LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech. Interspeech 2019.

Perspektif Penganalisis: Dekonstruksi Kritikal

Wawasan Teras: Kertas ini bukan sekadar tentang membuat robot terdengar lebih manusiawi; ia adalah eksploitasi licik set data besar yang kurang digunakan—persembahan buku audio manusia—untuk merekayasa balik peraturan tersirat penyampaian naratif. Penulis dengan betul mengenal pasti bahawa industri buku audio bernilai bilion dolar itu, sebenarnya, adalah set anotasi pra-sedia yang besar untuk pertuturan ekspresif. Wawasan utama mereka adalah memperlakukan pencerita sebagai sensor berketepatan tinggi untuk afek tekstual, konsep yang selari dengan bagaimana CycleGAN (Zhu et al., 2017) menggunakan set imej tidak berpasangan untuk mempelajari terjemahan gaya—di sini, "gaya" itu adalah persembahan prosodi.

Aliran Logik: Logiknya menarik: 1) Selaraskan teks dan audio untuk mencipta set data terselia. 2) Gunakan NLP teguh (MPNet) untuk memahami teks. 3) Gunakan model berurutan (LSTM) untuk memetakan konteks kepada prosodi. 4) Mengatasi gergasi komersial (Google) dalam permainannya sendiri pada metrik korelasi. Aliran dari penciptaan data kepada keunggulan model adalah bersih dan disokong dengan baik oleh kadar kemenangan 22/24 dan 23/24 mereka. Walau bagaimanapun, rantai itu melemah pada pautan akhir yang penting: keutamaan pendengar subjektif. Keputusan 12/22 adalah rapuh secara statistik dan mendedahkan masalah "metrik baik, pengalaman sederhana" yang kekal dalam audio AI.

Kekuatan & Kelemahan: Kekuatannya tidak dapat dinafikan dalam set data dan keunggulan yang boleh diukur dengan jelas berbanding garis dasar TTS dalam menangkap kontur prosodi objektif. Analisis tahap watak (lelaki vs. perempuan, naratif vs. dialog) adalah permata pemerhatian empirikal yang menyediakan kedua-dua pengesahan model dan wawasan menarik tentang persembahan manusia. Kelemahan utama ialah pergantungan pada penggodaman SSML pasca-hoc. Seperti yang akan diberitahu oleh mana-mana jurutera audio, menggunakan kawalan prosodi selepas fakta kepada suara TTS generik selalunya terdengar buatan dan terpisah—seperti menggunakan penyamaan grafik pada rakaman yang buruk. Keputusan penilaian manusia menjerit batasan ini. Model meramal nota yang betul, tetapi enjin sintesis tidak dapat memainkannya dengan selaras. Pendekatan yang lebih bercita-cita tinggi, hujung-ke-hujung, seperti yang dipelopori oleh model seperti FastSpeech 2, adalah langkah seterusnya yang perlu tetapi lebih sukar.

Wawasan Boleh Tindak: Untuk pasukan produk, pengambilan segera ialah melesenkan atau membina atas set data dan model ini untuk menambah mod "Pencerita" atau "Ekspresif" kepada tawaran TTS sedia ada—ciri jangka pendek yang boleh dilaksanakan. Untuk penyelidik, laluannya adalah dua: Pertama, integrasikan ramalan prosodi ini secara langsung ke dalam model akustik sistem TTS neural, bergerak melebihi SSML. Kedua, kembangkan analisis melebihi tiga atribut asas untuk merangkumi kualiti suara (bernafas, kasar) dan keadaan emosi yang lebih halus, mungkin memanfaatkan sumber seperti korpus MSP-Podcast untuk analisis pertuturan emosi. Kertas ini berjaya membuka bidang penyelidikan yang kaya; kini kerja keras memperhalusi bijih bermula.