1. Pengenalan
Kertas kerja ini memperkenalkan J-MAC (Korpus Buku Audio Berbilang Penutur Bahasa Jepun), sebuah korpus pertuturan baharu yang direka untuk memajukan penyelidikan dalam sintesis pertuturan yang ekspresif dan sedar konteks, khususnya untuk aplikasi buku audio. Penulis berhujah bahawa walaupun TTS gaya bacaan telah mencapai kualiti hampir manusia, cabaran seterusnya melibatkan pengendalian konteks rentas ayat yang kompleks, ekspresiviti khusus penutur, dan aliran naratif—semuanya kritikal untuk penjanaan buku audio yang menarik. Kekurangan korpus buku audio berbilang penutur berkualiti tinggi telah menjadi halangan utama. J-MAC menangani ini dengan menyediakan kaedah untuk membina korpus sedemikian secara automatik daripada buku audio komersial yang dibaca oleh narator profesional, menjadikan set data yang terhasil sebagai sumber terbuka.
2. Pembinaan Korpus
Saluran pembinaan adalah proses tiga peringkat yang direka untuk automasi dan kebebasan bahasa.
2.1 Pengumpulan Data
Buku audio dipilih berdasarkan dua kriteria utama: 1) Ketersediaan teks rujukan yang tepat (lebih baik novel yang hak ciptanya telah tamat untuk mengelakkan ralat ASR pada entiti bernama), dan 2) Kewujudan pelbagai versi yang dinarasikan oleh penutur profesional yang berbeza untuk menangkap pelbagai gaya ekspresif. Ini mengutamakan kepelbagaian penutur berbanding jumlah data yang besar daripada penutur tunggal.
2.2 Pembersihan & Penjajaran Data
Audio mentalah menjalani pemprosesan untuk mengekstrak segmen pertuturan yang bersih dan menjajarkannya dengan tepat dengan teks yang sepadan. Ini melibatkan pemisahan sumber, penjajaran kasar menggunakan Pengelasan Temporal Koneksionis (CTC), dan penapisan halus menggunakan Pengesanan Aktiviti Suara (VAD).
3. Metodologi Teknikal
3.1 Pemisahan Vokal-Instrumental
Untuk mengasingkan pertuturan bersih daripada kemungkinan muzik latar atau kesan bunyi dalam produksi buku audio, model pemisahan sumber (seperti yang berdasarkan Deep Clustering atau Conv-TasNet) digunakan. Langkah ini adalah penting untuk mendapatkan data latihan berketepatan tinggi untuk model sintesis.
3.2 Penjajaran Berasaskan CTC
Model ASR yang dilatih CTC menyediakan penjajaran awal yang kasar antara bentuk gelombang audio dan jujukan teks. Fungsi kerugian CTC $\mathcal{L}_{CTC} = -\log P(\mathbf{y}|\mathbf{x})$, di mana $\mathbf{x}$ ialah jujukan input dan $\mathbf{y}$ ialah jujukan label sasaran, membolehkan penjajaran tanpa segmentasi paksa.
3.3 Penapisan Berasaskan VAD
Penjajaran kasar CTC ditapis menggunakan sistem Pengesanan Aktiviti Suara. Langkah ini membuang segmen bukan pertuturan (jeda, nafas) dan melaraskan sempadan untuk memastikan setiap segmen audio sepadan dengan tepat dengan unit teks (contohnya, ayat), meningkatkan ketepatan pasangan teks-audio.
4. Keputusan Eksperimen & Penilaian
Penulis menjalankan penilaian sintesis pertuturan buku audio menggunakan model yang dilatih pada J-MAC. Penemuan utama termasuk:
- Peningkatan Model Digeneralisasikan: Penambahbaikan pada seni bina sintesis meningkatkan keaslian pertuturan keluaran merentasi penutur yang berbeza dalam korpus.
- Faktor Terjerat: Keaslian yang dirasai sangat dipengaruhi oleh interaksi kompleks antara kaedah sintesis, ciri suara penutur, dan kandungan buku itu sendiri. Memisahkan faktor-faktor ini masih menjadi cabaran.
Penerangan Carta (Implisit): Sebuah carta bar hipotesis akan menunjukkan Skor Pendapat Purata (MOS) untuk keaslian merentasi sistem sintesis yang berbeza (contohnya, Tacotron2, FastSpeech2) dan penutur J-MAC yang berbeza. Carta itu kemungkinan besar akan menunjukkan variasi merentasi penutur untuk model yang sama dan trend peningkatan yang konsisten untuk model maju merentasi semua penutur, mengesahkan secara visual dua wawasan utama tersebut.
5. Wawasan Utama & Perbincangan
- J-MAC berjaya menyediakan saluran automatik yang boleh diskalakan untuk mencipta korpus pertuturan ekspresif.
- Reka bentuk berbilang penutur, buku yang sama adalah kekuatan unik untuk mengkaji identiti dan ekspresiviti penutur.
- Penilaian menekankan bahawa model TTS buku audio masa depan mesti mengambil kira sifat terjerat kandungan, penutur, dan gaya.
6. Analisis Asal: Perspektif Industri
Wawasan Teras: Kertas kerja J-MAC bukan sekadar tentang set data baharu; ia adalah langkah strategik untuk mengalihkan paradigma TTS daripada penjanaan ujaran terpencil kepada kepintaran naratif. Walaupun model seperti WaveNet dan Tacotron menakluki ketepatan, mereka sebahagian besarnya mengabaikan struktur makro pertuturan. J-MAC, dengan menyediakan naratif selari daripada berbilang penutur profesional, adalah substrat yang diperlukan untuk model belajar bukan sahaja cara bercakap, tetapi cara melakonkan sebuah cerita. Ini selari dengan trend industri yang lebih luas yang dilihat dalam karya seperti kertas kerja Google AudioLM, yang berusaha untuk memodelkan audio dengan cara yang sedar konteks dan berhierarki.
Aliran Logik: Penulis mengenal pasti dengan betul halangan data. Penyelesaian mereka pragmatik: melombong produksi artistik sedia ada yang berkualiti tinggi (buku audio) berbanding menugaskan rakaman baharu. Saluran teknikal adalah bijak—memanfaatkan teknologi matang (CTC, VAD) dalam gabungan baharu untuk matlamat khusus yang bernilai tinggi. Penilaian kemudian menggunakan sumber baharu ini untuk mendedahkan penemuan kritikal yang tidak jelas: dalam sintesis ekspresif, anda tidak boleh mengoptimumkan untuk "model terbaik" yang bebas penutur. Prestasi berkait rapat dengan identiti penutur.
Kekuatan & Kelemahan: Kekuatan utama adalah prinsip reka bentuk korpus. Pilihan penutur profesional dan perbandingan teks yang sama adalah cemerlang untuk kajian kebolehkawalan. Saluran automatik adalah sumbangan penting kepada kebolehhasilan. Walau bagaimanapun, kelemahan kertas kerja adalah penilaiannya yang masih baru. Wawasan "faktor terjerat" adalah penting tetapi hanya dinyatakan. Analisis yang lebih mendalam, mungkin menggunakan teknik daripada literatur pemindahan gaya (seperti seni bina pengekod dalam Global Style Tokens atau kaedah pemisahan yang diterokai dalam CycleGAN-VC), diperlukan. Berapa banyak variasi disebabkan oleh timbre akustik berbanding gaya prosodi berbanding tafsiran semantik? Kertas kerja membuka pintu tetapi tidak melaluinya.
Wawasan Boleh Tindak: Untuk penyelidik: Gunakan J-MAC sebagai penanda aras untuk teknik pemisahan. Untuk pasukan produk: Kerja ini menandakan bahawa generasi seterusnya AI suara untuk podcast, iklan, dan buku tidak akan datang daripada lebih banyak data gaya bacaan, tetapi daripada data prestasi naratif. Mulakan mengkurasi set data ekspresif bentuk panjang. Metodologi itu sendiri boleh dieksport—bayangkan "J-MAC untuk Podcast" atau "J-MAC untuk Treler Filem." Pengajaran teras adalah bahawa dalam era model asas, nilai strategik set data berkualiti tinggi yang berstruktur unik seperti J-MAC mungkin melebihi nilai mana-mana seni bina model tunggal yang diterbitkan bersamanya.
7. Butiran Teknikal & Formulasi Matematik
Proses penjajaran bergantung pada algoritma CTC hadapan-belakang. Diberi jujukan input $\mathbf{x}$ dengan panjang $T$ dan jujukan sasaran $\mathbf{l}$ dengan panjang $L$, CTC mentakrifkan taburan ke atas penjajaran dengan memperkenalkan token kosong ($\epsilon$) dan membenarkan pengulangan. Kebarangkalian sasaran adalah jumlah semua penjajaran sah $\pi$:
$P(\mathbf{l} | \mathbf{x}) = \sum_{\pi \in \mathcal{B}^{-1}(\mathbf{l})} P(\pi | \mathbf{x})$
di mana $\mathcal{B}$ ialah fungsi yang meruntuhkan token berulang dan membuang token kosong. Penapisan VAD boleh dirumuskan sebagai tugas segmentasi, mencari sempadan $\{t_i\}$ yang memaksimumkan kebarangkalian pertuturan dalam segmen dan bukan pertuturan di antaranya, selalunya menggunakan ciri berasaskan tenaga atau pengelas terlatih.
8. Kerangka Analisis: Kajian Kes
Skenario: Menilai kesan gaya penutur terhadap persepsi "penglibatan" dalam sintesis buku audio.
Aplikasi Kerangka:
- Pemisahan Data: Ambil dua penutur profesional (A & B) daripada J-MAC yang telah menarasikan bab novel yang sama.
- Pengekstrakan Ciri: Untuk setiap ujaran dalam bab, ekstrak deskriptor aras rendah (LLD) seperti kontur nada, dinamik tenaga, dan tempoh jeda menggunakan alat seperti OpenSMILE atau Praat. Juga ekstrak penyematan gaya aras tinggi menggunakan model pratelahir seperti HuBERT.
- Analisis Kontrastif: Kira perbezaan statistik (contohnya, menggunakan ujian-t atau jarak KL) antara taburan LLD untuk Penutur A dan Penutur B untuk kandungan teks yang sama. Ini mengkuantifikasi "cap jari" prosodi unik mereka.
- Sintesis & Penilaian: Latih dua model TTS: satu pada data Penutur A, satu pada data Penutur B. Sintesiskan petikan novel yang sama yang tidak dilihat semasa latihan. Jalankan ujian pendengaran di mana penilai menilai setiap sintesis untuk "ekspresiviti" dan "penglibatan naratif."
- Korelasi: Korelasikan perbezaan gaya objektif (Langkah 3) dengan skor penglibatan subjektif (Langkah 4). Kerangka ini, yang dimungkinkan oleh struktur J-MAC, boleh mengasingkan ciri akustik mana yang paling menyumbang kepada kualiti prestasi yang dirasai.
9. Aplikasi Masa Depan & Hala Tuju Penyelidikan
- Pembelajaran Suara Ekspresif & Penyesuaian: Data berbilang penutur J-MAC adalah ideal untuk membangunkan sistem penyesuaian suara sedikit tembakan atau sifar tembakan yang boleh meniru gaya naratif penutur, bukan sekadar timbre mereka.
- Pembelajaran Perwakilan Terpisah: Kerja masa depan boleh menggunakan J-MAC untuk melatih model yang memisahkan kandungan, identiti penutur, dan gaya ekspresif ke dalam ruang laten yang berbeza, membolehkan kawalan halus ke atas sintesis.
- Sintesis Buku Audio Rentas Bahasa: Metodologi ini boleh digunakan untuk bahasa lain untuk membina korpus yang serupa, membolehkan penyelidikan tentang pemeliharaan gaya ekspresif dalam terjemahan atau alih suara.
- Penciptaan Kandungan Dibantu AI: Integrasi dengan model bahasa besar (LLM) boleh membawa kepada sistem yang menulis dan melakonkan cerita pendek atau kandungan audio diperibadikan dalam gaya narator tertentu.
- Alat Aksesibiliti: Menjana buku audio berkualiti tinggi dan ekspresif mengikut permintaan untuk sebarang teks digital, mengembangkan akses untuk pengguna cacat penglihatan.
10. Rujukan
- J. Shen, et al., "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions," ICASSP, 2018.
- A. Vaswani, et al., "Attention Is All You Need," NeurIPS, 2017.
- Y. Ren, et al., "FastSpeech: Fast, Robust and Controllable Text to Speech," NeurIPS, 2019.
- A. v. d. Oord, et al., "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499, 2016.
- J.-Y. Zhu, et al., "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," ICCV, 2017. (CycleGAN)
- Y. Wang, et al., "Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis," ICML, 2018.
- Google AI, "AudioLM: A Language Modeling Approach to Audio Generation," Google Research Blog, 2022.
- A. Graves, et al., "Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks," ICML, 2006.