Yaliyomo
1. Utangulizi na Muhtasari
Mifumo iliyopo ya maandishi-hadi-sauti (TTS) imeboreshwa hasa kwa ajili ya usanifishaji wa sentensi moja, ikikosa muundo unaohitajika kwa ajili ya kuiga utegemezi wa muda mrefu na kutoa udhibiti mzuri juu ya vipengele vya utendaji kama vile hisia na uthabiti wa mhusika. Hii inaunda pengo kubwa katika uzalishaji wa otomatiki wa vitabu vya sauti vya hali ya juu na wahusika wengi, ambavyo vinahitaji mshikamano wa hadithi na sauti tofauti za wahusika zenye hisia katika sura ndefu.
Karatasi ya "Audiobook-CC: Uzalishaji wa Sauti wa Muktadha Mrefu Unaodhibitiwa kwa Ajili ya Kitabu cha Sauti cha Wahusika Wengi" inashughulikia pengo hili. Inapendekeza mfumo mpya uliojengwa juu ya uvumbuzi tatu msingi: utaratibu wa muktadha kwa ajili ya uthabiti wa kuvuka sentensi, mtindo wa kutenganisha ili kutenganisha udhibiti wa mtindo na maagizo ya sauti, na mbinu ya kujidondosha ili kuboresha uwezo wa kutoa hisia na kufuata maagizo.
2. Njia na Muundo
Mfumo wa Audiobook-CC umeundwa hasa kwa ajili ya asili ya muda mrefu na wahusika wengi ya vitabu vya sauti. Mchakato wake unahusisha kugawa maandishi marefu katika sura, kufanya uchambuzi wa maandishi na sifa za mhusika, kutoa masimulizi na mazungumzo, kugawa sauti kupitia uteuzi, na hatimaye kusanifisha sauti kwa kutumia muundo uliopendekezwa wa modeli.
2.1 Utaratibu wa Kusanifisha Muktadha
Ili kushinda "upofu wa muktadha" wa mifumo ya zamani ya TTS katika uzalishaji wa muda mrefu, Audiobook-CC inajumuisha utaratibu wazi wa kusanifisha muktadha. Sehemu hii imeundwa ili kukamata na kutumia taarifa za maana kutoka kwa sentensi zilizotangulia, kuhakikisha kwamba mtindo, mwendo, na sauti ya hisia ya utamkaji wa sasa inalingana na mtiririko wa hadithi unaoendelea. Hii inashughulikia dosari kuu katika mifumo kama AudioStory au MultiActor-Audiobook, ambayo hushughulikia sentensi kwa kutengwa kiasi.
2.2 Mtindo wa Mafunzo ya Kutenganisha
Changamoto muhimu katika TTS inayodhibitiwa ni mchanganyiko kati ya maudhui ya maana ya maandishi na taarifa za mtindo/hisia zilizojumuishwa katika kichocheo cha sauti. Audiobook-CC inatumia mtindo mpya wa mafunzo ya kutenganisha. Mbinu hii inatenganisha kikamilifu mtindo wa sauti inayozalishwa na sifa za sauti za kichocheo chochote kilichotolewa. Matokeo yake ni kwamba sauti na hisia ya pato hufuata maagizo ya maana na viashiria vya muktadha kwa uaminifu zaidi, badala ya kuathiriwa kupita kiasi na sifa za sauti za kichocheo. Mtindo huu unachota msukumo kutoka kwa mbinu za kujifunza uwakilishi zinazoona katika nyanja kama usanifishaji wa picha (mfano, kanuni za kutenganisha zilizochunguzwa katika CycleGAN), zikitumika hapa katika nyanja ya sauti.
2.3 Kujidondosha kwa Ajili ya Utoaji Hisia
Ili kuimarisha uwezo wa modeli wa kutoa hisia zenye ufasaha na kukabiliana na maagizo ya lugha asilia (mfano, "soma hii kwa huzuni"), waandishi wanapendekeza njia ya kujidondosha. Mbinu hii inahusisha kufundisha modeli kwenye matokeo yake yaliyoboreshwa au kuunda ishara ya mafunzo iliyoboreshwa ambayo inasisitiza tofauti za hisia na kufuata maagizo, na hivyo "kudondosha" udhibiti wenye nguvu zaidi ndani ya modeli ya mwisho.
3. Maelezo ya Kiufundi na Mfumo wa Hisabati
Ingawa PDF haitoi fomula kamili, michango ya kiufundi ya msingi inaweza kuwekwa kwa dhana. Utaratibu wa muktadha unaweza kuhusisha kipakiaji cha msingi cha transformer kinachoshughulikia dirisha la alama za maandishi zilizopita $\mathbf{C} = \{x_{t-k}, ..., x_{t-1}\}$ pamoja na alama ya sasa $x_t$ ili kutoa uwakilishi unaotambua muktadha $\mathbf{h}_t^c = f_{context}(\mathbf{C}, x_t)$.
Hasara ya kutenganisha inaweza kufasiriwa kama kupunguza habari ya pamoja kati ya msimbo wa mtindo $\mathbf{s}$ uliotolewa kutoka kichocheo na uwakilishi wa maana $\mathbf{z}$ wa maandishi lengwa, ikihimiza uhuru: $\mathcal{L}_{disentangle} = \min I(\mathbf{s}; \mathbf{z})$.
Mchakato wa kujidondosha unaweza kutumia mfumo wa mwalimu-mwanafunzi, ambapo modeli ya mwalimu (au alama ya awali) inazalisha sampuli zenye hisia, na modeli ya mwanafunzi inafunzwa ili kufanana na pato hili huku ikizingatia malengo ya awali ya mafunzo, ikifasiriwa kama: $\mathcal{L}_{distill} = \text{KL}(P_{student}(y|x) || P_{teacher}(y|x))$.
4. Matokeo ya Majaribio na Tathmini
Karatasi inaripoti kwamba Audiobook-CC inafikia utendaji bora ikilinganishwa na misingi iliyopo katika vipimo muhimu vya uzalishaji wa kitabu cha sauti. Tathmini zinashughulikia:
- Uzalishaji wa Masimulizi: Uboreshaji wa uasilia na uthabiti katika sauti ya msemaji.
- Uzalishaji wa Mazungumzo: Tofauti na uthabiti bora kati ya sauti tofauti za wahusika ndani ya eneo.
- Mshikamano wa Sura Nzima: Uzoefu bora wa kusikiliza kwa ujumla kutokana na uthabiti wa muktadha na maana uliohifadhiwa kutoka mwanzo hadi mwisho.
Uchambuzi wa kutenganisha unafanywa ili kuthibitisha mchango wa kila sehemu iliyopendekezwa (utaratibu wa muktadha, kutenganisha, kujidondosha). Matokeo yanaonyesha kwamba kuondoa yoyote kati ya nguzo hizi tatu husababisha kupungua kwa utendaji unaoweza kupimika, ikithibitisha umuhimu wao. Sampuli za onyesho zinapatikana kwenye tovuti ya mradi.
5. Mfumo wa Uchambuzi: Uelewa Msingi na Ukosoaji
Uelewa Msingi: Timu ya Ximalaya haijengi tu modeli nyingine ya TTS; wanasanifisha injini ya akili ya hadithi. Uvumbuzi wa kweli wa Audiobook-CC ni kuchukulia sura ya kitabu cha sauti sio kama mlolongo wa sentensi huru bali kama kitengo kikamilifu cha kishujaa, ambapo muktadha huamua hisia na utambulisho wa mhusika ni kigezo cha kudumu na kinachodhibitiwa. Hii inabadilisha mtindo kutoka usanifishaji sauti hadi usanifishaji hadithi.
Mtiririko wa Mantiki: Karatasi inatambua kwa usahihi tatizo la tasnia: gharama na kiwango. Uzalishaji wa mikono wa vitabu vya sauti ni ghali sana kwa maudhui ya mkia mrefu ambayo yanatawala majukwaa kama Ximalaya. Suluhisho lao linaunganisha kimantiki moduli tatu za kiufundi: muktadha (kwa mshikamano), kutenganisha (kwa udhibiti safi), na kudondosha (kwa ubora). Mtiririko kutoka tatizo hadi majibu ya muundo unaoendana na mantiki na ni yenye maana kibiashara.
Nguvu na Kasoro: Nguvu haina shaka—kushughulikia udhibiti wa muktadha mrefu na wahusika wengi katika mfumo mmoja ni changamoto kubwa ya uhandisi. Njia iliyopendekezwa ya kutenganisha ni mzuri hasa, inaweza kutatua tatizo la "kumwagika kwa sauti" ambapo lafudhi ya kichocheo inachafua mhusika lengwa. Hata hivyo, kasoro ya karatasi ni utata wake kuhusu data. TTS ya ubora wa kitabu cha sauti inaishi na kufa kwa data yake ya mafunzo. Bila maelezo juu ya ukubwa, anuwai, na uwekaji lebo (hisia, mhusika) wa seti yao ya data ya kifedha, haiwezekani kupima jinsi mafanikio haya yanavyoweza kurudiwa au kupanuliwa. Je, huu ni uvumbuzi wa kimsingi wa algoriti au ushindi wa data kubwa, iliyochaguliwa kwa uangalifu? Uchambuzi wa kutenganisha unathibitisha muundo, lakini injini ya data bado ni kisanduku cheusi.
Uelewa Unaotumika: Kwa washindani na watafiti, hitimisho ni wazi: uwanja wa pili katika TTS ni uwezo wa kudhibiti muktadha wa muda mrefu. Kuwekeza katika utafiti unaohama zaidi ya vipimo vya kiwango cha sentensi kama MOS (Kadirio la Maoni ya Wastani) hadi vipimo vya kiwango cha sura kwa ajili ya mtiririko wa hadithi na uthabiti wa mhusika ni muhimu. Kwa majukwaa ya maudhui, maana yake ni urahisishaji wa karibu wa uundaji wa maudhui ya sauti ya hali ya juu na wahusika wengi, ambayo itapunguza kikwazo kwa aina maalum na waandishi huru.
6. Matarajio ya Matumizi na Mwelekeo wa Baadaye
Matokeo ya Audiobook-CC yanapanuka zaidi ya vitabu vya sauti vya jadi.
- Vyombo vya Habari Vinavyoshirikiana na Michezo: Uzalishaji wa mazungumzo ya nguvu kwa ajili ya wahusika wasiochezaji (NPC) wenye sifa thabiti na majibu ya hisia kwa matukio ya ndani ya mchezo.
- Maudhui ya Kielimu: Uzalishaji wa mihadhara yenye kuvutia, sauti nyingi au masimulizi ya kihistoria ambapo "wahusika" tofauti wanawakilisha dhana tofauti au watu wa kihistoria.
- Washirika wa AI na Wakala wa Kijamii: Kuunda wakala wa mazungumzo wenye asili zaidi na hisia zinazovutia ambazo hudumisha sifa thabiti katika mwingiliano mrefu.
- Ubadilishaji wa Video Otomatiki: Kuunganisha sauti inayozalishwa na harakati za midomo ya video kwa wahusika wengi, ikihitaji wasifu thabiti wa sauti katika maeneo tofauti.
Mwelekeo wa Utafiti wa Baadaye:
- Uthabiti wa Sauti ya Kuvuka Lugha na Tamaduni: Kudumisha utambulisho wa sauti ya mhusika wakati hadithi ile ile inasanifishwa katika lugha tofauti.
- Uzalishaji wa Hadithi ya Wakati Halisi, Inayoshirikiana: Kubadilisha sauti ya hadithi na hisia za wahusika kwa wakati halisi kulingana na maoni au chaguzi za msikilizaji.
- Ujumuishaji na LLMs za Njia Nyingi: Kuunganisha mfumo wa usanifishaji na modeli kubwa za lugha ambazo zinaweza kuzalisha hati ya hadithi, maelezo ya wahusika, na maagizo ya hisia katika mchakato wa uundaji wa hadithi kutoka mwanzo hadi mwisho.
- Uigaji wa Sauti wa Kimaadili na Ugawaji: Kuendeleza kinga thabiti na utaratibu wa ugawaji wakati teknolojia inafanya usanifishaji wa sauti wa hali ya juu kuwa rahisi zaidi.
7. Marejeo
- MultiActor-Audiobook (Kazi iliyorejelewa, muundo halisi wa marejeo kutoka PDF).
- AudioStory: [Marejeo kutoka PDF].
- Dopamine Audiobook: [Marejeo kutoka PDF].
- MM-StoryAgent: [Marejeo kutoka PDF].
- Shaja et al. (Sauti ya Anga kwa TTS): [Marejeo kutoka PDF].
- CosyVoice & CosyVoice 2: [Marejeo kutoka PDF].
- MoonCast: [Marejeo kutoka PDF].
- MOSS-TTSD: [Marejeo kutoka PDF].
- CoVoMix: [Marejeo kutoka PDF].
- koel-TTS: [Marejeo kutoka PDF].
- Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Katika ICCV. (Marejeo ya nje kwa dhana za kutenganisha).
- OpenAI. (2023). Ripoti ya Kiufundi ya GPT-4. (Marejeo ya nje kwa uwezo wa LLM katika uzalishaji hadithi).
- Google AI. (2023). AudioLM: Njia ya Kusanifisha Lugha kwa Uzalishaji Sauti. (Marejeo ya nje kwa mtindo wa uzalishaji sauti).