1. Pengenalan & Gambaran Keseluruhan
MultiActor-Audiobook memperkenalkan satu kerangka sifar-tembak untuk menjana buku audio ekspresif yang menampilkan pelbagai pencerita berbeza. Ia menangani batasan utama sistem terdahulu: kos tinggi set data pelakon suara yang luas, kekhususan domain model terlatih, dan sifat anotasi prosodi manual yang memerlukan tenaga kerja yang banyak. Inovasi terasnya terletak pada dua proses automatik sifar-tembak: Penjanaan Persona Pencerita Multimodal (MSP) dan Penjanaan Arahan Skrip Berasaskan LLM (LSI). Dengan mensintesis suara khusus watak daripada persona visual yang dijana dan membuat inferens dinamik isyarat emosi/prosodi daripada konteks teks, sistem ini bertujuan untuk menghasilkan buku audio dengan naratif yang konsisten, sesuai, dan ekspresif tanpa sebarang data latihan khusus tugas.
2. Metodologi Teras
Keberkesanan sistem ini bergantung pada dua proses novel yang saling berkait yang mengautomasikan aspek paling mencabar dalam penghasilan buku audio: penciptaan suara watak dan bacaan ekspresif.
2.1 Penjanaan Persona Pencerita Multimodal (MSP)
Proses ini mencipta suara yang unik dan konsisten untuk setiap watak dalam cerita hanya daripada penerangan teks.
- Pengenalpastian Entiti & Pengekstrakan Persona Teks: Satu LLM (cth., GPT-4) menghuraikan skrip novel untuk mengenal pasti semua entiti yang bercakap (watak, pencerita). Bagi setiap entiti, ia mengekstrak ciri deskriptif (personaliti, umur, peranan, ciri fizikal) daripada teks naratif.
- Penjanaan Persona Visual: Model teks-ke-gambar (cth., Stable Diffusion) menggunakan penerangan teks yang diekstrak untuk menjana imej wajah yang secara visual mewakili watak tersebut.
- Sintesis Wajah-ke-Suara: Sistem Wajah-ke-Suara yang telah dilatih terdahulu (merujuk kerja seperti [14]) mengambil imej wajah yang dijana dan kapsyennya untuk mensintesis sampel suara pendek. Sampel ini merangkumi ciri prosodi tersendiri watak (timbre, garis dasar nada, gaya pertuturan). Suara ini menjadi pengikat untuk semua dialog seterusnya oleh watak tersebut.
2.2 Penjanaan Arahan Skrip Berasaskan LLM (LSI)
Untuk mengelakkan bacaan yang monoton, proses ini menjana arahan prosodi dinamik pada peringkat ayat.
- Analisis Sedar Konteks: Bagi setiap ayat yang akan disintesis, LLM dibekalkan dengan: ayat sasaran, konteks sekeliling (ayat sebelumnya/seterusnya), dan maklumat persona pencerita semasa.
- Penjanaan Arahan: LLM mengeluarkan satu set arahan berstruktur yang menentukan keadaan emosi (cth., "gembira," "muram"), nada (cth., "sarkastik," "berwibawa"), variasi nada, dan kadar pertuturan yang sesuai dengan konteks dan watak.
- Pemacuan untuk TTS: Arahan ini diformatkan menjadi pacuan bahasa semula jadi (cth., "Katakan ini dengan nada [emosi] dengan variasi [nada]") yang membimbing model Teks-ke-Pertuturan (TTS) yang boleh dipacu dan telah dilatih terdahulu untuk menjana audio akhir.
3. Seni Bina Teknikal & Butiran
3.1 Saluran Paip Sistem
Aliran kerja hujung-ke-hujung boleh divisualisasikan sebagai saluran paip berurutan:
Teks Novel Input → LLM (ID Pencerita & Pengekstrakan Persona) → Text2Image (Penjanaan Wajah) → Face2Voice (Sampel Suara) → [Setiap Watak]
Bagi setiap ayat: [Ayat + Konteks + Persona] → LLM (LSI) → Prompt-TTS (dengan Suara Watak) → Segmen Audio Output
Buku audio akhir adalah gabungan output sementara semua ayat yang diproses.
3.2 Rumusan Matematik
Proses penjanaan teras untuk ayat $s_i$ yang dituturkan oleh watak $c$ boleh diformalkan. Biarkan $C$ menjadi tetingkap konteks di sekitar $s_i$, dan $P_c$ menjadi persona multimodal watak $c$ (mengandungi penerangan teks $D_c$, wajah terjana $F_c$, dan sampel suara $V_c$).
Proses LSI menjana vektor arahan $I_i$: $$I_i = \text{LLM}_{\theta}(s_i, C, P_c)$$ di mana $\text{LLM}_{\theta}$ adalah model bahasa besar dengan parameter $\theta$.
Audio akhir $A_i$ untuk ayat tersebut disintesis oleh model TTS yang boleh dipacu $\text{TTS}_{\phi}$, dikondisikan pada suara watak $V_c$ dan arahan $I_i$: $$A_i = \text{TTS}_{\phi}(s_i | V_c, I_i)$$ Keupayaan sifar-tembak sistem ini berasal daripada penggunaan model yang telah dilatih terdahulu dan dibekukan ($\text{LLM}_{\theta}$, Text2Image, Face2Voice, $\text{TTS}_{\phi}$) tanpa penalaan halus.
4. Keputusan Eksperimen & Penilaian
Kertas kerja ini mengesahkan MultiActor-Audiobook melalui penilaian perbandingan terhadap produk buku audio komersial dan kajian penyingkiran.
4.1 Penilaian Manusia
Penilai manusia menilai sampel buku audio yang dijana berdasarkan kriteria seperti ekspresi emosi, kekonsistenan pencerita, dan kewajaran keseluruhan. MultiActor-Audiobook mencapai penarafan yang setanding atau lebih baik berbanding perkhidmatan buku audio berasaskan TTS komersial. Ketara, ia mengatasi sistem asas yang menggunakan suara tunggal atau prosodi berasaskan peraturan mudah, terutamanya dalam dialog yang melibatkan pelbagai watak dengan persona berbeza.
4.2 Penilaian MLLM
Untuk melengkapkan penilaian manusia, pengarang menggunakan Model Bahasa Besar Multimodal (MLLM) seperti GPT-4V. MLLM dibentangkan dengan audio dan penerangan tentang adegan/watak dan diminta menilai sama ada penyampaian vokal sepadan dengan konteks. Metrik objektif ini mengesahkan keupayaan sistem untuk menjana prosodi yang sesuai dengan konteks seefektif sistem komersial, mengesahkan keberkesanan modul LSI.
4.3 Kajian Penyingkiran
Kajian penyingkiran menunjukkan sumbangan setiap modul teras:
- Tanpa MSP (Menggunakan suara generik): Kekonsistenan pencerita dan kekhasan watak menurun dengan ketara, menyebabkan dialog yang mengelirukan.
- Tanpa LSI (Menggunakan TTS neutral): Audio menjadi monoton dan rata dari segi emosi, mendapat skor rendah pada metrik ekspresi.
- Sistem Penuh (MSP + LSI): Mencapai skor tertinggi merentas semua dimensi penilaian, membuktikan keperluan sinergi kedua-dua komponen.
5. Kerangka Analisis & Kajian Kes
Aplikasi Kerangka: Untuk menganalisis novel untuk penghasilan, sistem mengikuti kerangka deterministik. Kajian Kes - Petikan Novel Fantasi:
- Input: "Ahli sihir tua itu, janggutnya panjang dan kelabu, mengeluarkan amaran. 'Berhati-hatilah dengan bayang-bayang,' katanya, suaranya seperti batu yang bergesel."
- Pelaksanaan MSP: LLM mengenal pasti "ahli sihir tua" sebagai pencerita. Mengekstrak persona: {umur: tua, peranan: ahli sihir, deskriptor: janggut panjang dan kelabu, kualiti suara: seperti batu bergesel}. Text2Image menjana wajah yang berkerut. Face2Voice menghasilkan sampel suara yang dalam dan kasar.
- Pelaksanaan LSI untuk "Berhati-hatilah dengan bayang-bayang": LLM menerima ayat, konteks (amaran), dan persona ahli sihir. Menjana arahan: {emosi: kebimbangan serius, nada: menggerunkan dan rendah, nada: rendah dan stabil, kelajuan: perlahan}.
- Output: TTS yang boleh dipacu mensintesis "Berhati-hatilah dengan bayang-bayang" menggunakan suara ahli sihir yang kasar, disampaikan dengan cara yang perlahan, menggerunkan, dan bernada rendah.
6. Analisis Kritikal & Pandangan Pakar
Pandangan Teras: MultiActor-Audiobook bukan sekadar pembungkus TTS lain; ia adalah perubahan strategik daripada audio generatif berpusatkan data kepada berpusatkan pacuan. Kejayaan sebenarnya adalah dengan memperlakukan penciptaan buku audio sebagai masalah pengambilan konteks multimodal dan mengikut arahan, memintas keluk kos yang tinggi bagi pengklonan suara tradisional dan pemodelan prosodi. Ini selari dengan peralihan industri yang lebih luas, seperti yang dicontohkan oleh model seperti DALL-E dan Stable Diffusion dalam penglihatan, di mana komposisi daripada bahagian yang telah dilatih terdahulu menggantikan latihan model monolitik.
Aliran Logik: Logiknya linear dengan elegan tetapi bergantung pada andaian rapuh. MSP mengandaikan model Wajah-ke-Suara memetakan sebarang wajah terjana kepada suara yang sesuai dan konsisten dengan boleh dipercayai—satu lompatan iman memandangkan cabaran yang diketahui dalam pembelajaran perwakilan silang-modal (seperti yang dilihat dalam perbezaan antara ruang laten imej dan audio yang dibincangkan dalam kerja seperti AudioCLIP). LSI mengandaikan pemahaman teks LLM tentang "nada muram" diterjemahkan dengan sempurna kepada parameter akustik dalam TTS hiliran—jurang semantik-akustik yang kekal sebagai cabaran asas, seperti yang dinyatakan dalam literatur pemprosesan pertuturan.
Kekuatan & Kelemahan: Kekuatannya tidak dapat dinafikan dari segi kecekapan ekonomi dan operasi: sifar-tembak, tiada sakit kepala pelesenan untuk suara pelakon, prototaip pantas. Kelemahannya adalah pada siling kualiti. Sistem ini hanya sebaik komponen luar rak yang paling lemah—model Face2Voice dan TTS yang boleh dipacu. Ia akan bergelut dengan kehalusan dan kekonsistenan jarak jauh. Bolehkah ia mengendalikan suara watak yang pecah kerana emosi, satu nuansa yang memerlukan kawalan sub-fonemik? Tidak mungkin. Pergantungan pada persona visual untuk suara juga merupakan penguat bias yang berpotensi, isu yang didokumenkan dengan baik dalam etika AI generatif.
Pandangan Boleh Tindak: Bagi pelabur dan pengurus produk, ini adalah MVP yang menarik untuk pasaran khusus: pembangun permainan indie, penyetempatan kandungan pantas, edutainment diperibadikan. Walau bagaimanapun, untuk penerbitan arus perdana yang mencari kualiti setanding manusia, ia adalah pelengkap, bukan pengganti. Peta jalan segera harus memberi tumpuan kepada pendekatan hibrid: menggunakan sistem ini untuk menjana buku audio "draf pertama" yang kaya yang kemudiannya boleh disunting dan digilap dengan cekap oleh pengarah manusia, memotong masa pengeluaran sebanyak 70-80% daripada bertujuan untuk 100% automasi. Keutamaan penyelidikan mesti menutup jurang semantik-akustik melalui ruang penyematan bersama yang lebih baik, mungkin diilhamkan oleh teknik penjajaran yang digunakan dalam model multimodal seperti Flamingo atau CM3.
7. Aplikasi Masa Depan & Hala Tuju
Paradigma yang diperkenalkan oleh MultiActor-Audiobook membuka beberapa laluan:
- Media Interaktif & Permainan: Penjanaan dinamik, masa nyata dialog watak dalam permainan atau cerita interaktif berdasarkan pilihan pemain dan keadaan watak yang berkembang.
- Aksesibiliti & Pendidikan: Penukaran serta-merta buku teks, dokumen, atau cerita kanak-kanak diperibadikan kepada naratif pelbagai suara yang menarik, meningkatkan aksesibiliti untuk pengguna cacat penglihatan atau mencipta bahan pembelajaran yang mendalam.
- Penyetempatan Kandungan: Alih suara dan suara latar pantas untuk kandungan video dengan menjana suara yang sesuai dengan budaya dan watak dalam bahasa sasaran, walaupun ini memerlukan backend TTS pelbagai bahasa yang maju.
- Hala Tuju Penyelidikan Masa Depan:
- Pemodelan Persona Dipertingkatkan: Menggabungkan lebih banyak modaliti (cth., tindakan watak, bunyi yang diterangkan) selain wajah dan penerangan teks untuk memaklumkan suara dan prosodi.
- Koherensi Konteks Panjang: Memperbaiki LSI untuk mengekalkan konsistensi arka naratif yang lebih luas (cth., penurunan emosi beransur watak) merentas keseluruhan buku, bukan hanya ayat tempatan.
- Ramalan Parameter Akustik Langsung: Melangkaui arahan bahasa semula jadi kepada LLM yang mengeluarkan sasaran ciri akustik langsung dan boleh ditafsir (kontur F0, tenaga) untuk kawalan lebih halus, serupa dengan pendekatan dalam VALL-E tetapi dalam tetapan sifar-tembak.
- Reka Bentuk Suara Beretika: Membangunkan kerangka untuk mengaudit dan menyahbias komponen Penjanaan Persona dan Wajah-ke-Suara untuk mencegah stereotaip.
8. Rujukan
- Tan, X., et al. (2021). NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality. arXiv preprint arXiv:2105.04421.
- Wang, C., et al. (2023). Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers. arXiv preprint arXiv:2301.02111.
- Zhang, Y., et al. (2022). META-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech. IEEE/ACM Transactions on Audio, Speech, and Language Processing.
- Radford, A., et al. (2023). Robust Speech Recognition via Large-Scale Weak Supervision. Proceedings of ICML.
- Kim, J., et al. (2021). VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Proceedings of ICML.
- OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.
- Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the CVPR.
- Alayrac, J., et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. Advances in Neural Information Processing Systems.
- Park, K., Joo, S., & Jung, K. (2024). MultiActor-Audiobook: Zero-Shot Audiobook Generation with Faces and Voices of Multiple Speakers. Manuscript submitted for publication.
- Guzhov, A., et al. (2022). AudioCLIP: Extending CLIP to Image, Text and Audio. Proceedings of the ICASSP.