Yaliyomo
1. Utangulizi na Muhtasari
Karatasi hii ya utafiti, "Uchambuzi wa Prosody wa Vitabu vya Sauti," inashughulikia pengo muhimu katika mifumo ya kisasa ya Nakala-hadi-Sauti (TTS): kutoweza kuiga sauti zenye ufasaha na za kishujaa zinazofanana na zile za vitabu vya sauti vinavyosimuliwa na binadamu. Ingawa TTS ya kibiashara imepata uhalisia wa juu katika usemi wa kawaida, inakwama na maandishi ya simulizi yenye mazungumzo, hisia, na maelezo mengi. Nadharia kuu ni kwamba uchambuzi wa hali ya juu wa Usindikaji wa Lugha ya Asili (NLP)—unazolenga hasa utambuzi wa wahusika, mazungumzo, na muundo wa simulizi—unaweza kutumika kutabiri vipengele vya prosody (sauti, ukubwa, kasi ya usemi) na kuboresha kwa kiasi kikubwa ubora wa vitabu vya sauti vya sintetiki.
Kazi hii inawasilisha seti mpya ya data ya jozi 93 za vitabu-vitabu vya sauti vilivyolinganishwa na inaonyesha kwamba mifano iliyofunzwa kwenye data hii inafanya vizuri zaidi kuliko msingi wa kisasa wa TTS ya kibiashara (Google Cloud TTS) katika kuwa na uhusiano na mienendo ya prosody ya kibinadamu.
93
Jozi za Vitabu-Vitabu vya Sauti Zilizolinganishwa
1806
Sura Zilizochambuliwa
22/24
Vitabu Vilivyo na Utabiri Bora wa Sauti
23/24
Vitabu Vilivyo na Utabiri Bora wa Ukubwa
2. Mbinu na Seti ya Data
2.1 Uundaji wa Seti ya Data
Msingi wa utafiti huu ni seti ya data iliyochaguliwa kwa uangalifu inayojumuisha riwaya 93 na vitabu vya sauti vinavyolingana vinavyosomwa na binadamu. Seti ya data inajumuisha sura 1,806 zilizo na ulinganifu wa kiwango cha sentensi kati ya maandishi na sauti, ikirahisisha uchambuzi sahihi. Seti hii ya data imepatikana kwa umma, ikitoa rasilimali ya thamani kwa jamii ya usemi na NLP. Mchakato wa kulinganisha ni muhimu kwa uchimbaji wa lebo sahihi za prosody (sauti, ukubwa, kasi) kwa kila sentensi katika maandishi.
2.2 Uchimbaji wa Sifa za Prosody
Kutoka kwa vitabu vya sauti vilivyolinganishwa, sifa tatu kuu za prosody zinachimbuliwa katika kiwango cha sentensi:
- Sauti (F0): Mzunguko wa msingi, unaonyesha kiwango cha mtetemo wa kamba za sauti. Inapimwa kwa Hertz (Hz).
- Ukubwa (Nguvu/Nishati): Ukubwa au sauti ya ishara ya usemi. Inapimwa kwa decibels (dB).
- Kasi (Kasi ya Kusema): Kasi ya utoaji, mara nyingi hupimwa kwa silabi kwa sekunde.
2.3 Muundo wa Mfano
Mfano mkuu ni mtandao wa Kumbukumbu ya Muda Mfupi-Mrefu (LSTM) uliojengwa juu ya viambishi vya sentensi vya MPNet (Ufundishaji wa Kufichwa na Kubadilishwa kwa Uelewa wa Lugha). MPNet hutoa uwakilishi mzuri wa muktadha wa maandishi ya pembejeo. Safu ya LSTM kisha inaunda mfano wa utegemezi wa mlolongo katika simulizi ili kutabiri thamani za kuendelea za sauti, ukubwa, na kasi. Muundo huu umechaguliwa kwa uwezo wake wa kukamata dalili za muktadha wa masafa marefu muhimu kwa uelewa wa simulizi.
3. Matokeo Muhimu na Uchambuzi
3.1 Mienendo ya Prosody katika Kiwango cha Wahusika
Uvumbuzi muhimu wa kiutendaji ni kwamba wasimulizi wa kibinadamu hurekebisha prosody kwa utaratibu kulingana na sifa za mhusika na muktadha wa simulizi. Uchambuzi unaonyesha:
- Katika vitabu 21 kati ya 31 ambapo wahusika wakuu wawili wanatofautiana kwa jinsia, wasimulizi walitumia sauti ya chini na ukubwa wa juu kuonyesha mhusika wa kiume.
- Wasimulizi hutumia sauti ya chini katika maeneo ya simulizi ikilinganishwa na mazungumzo, bila kujali jinsia ya mhusika.
3.2 Ufanisi wa Mfano dhidi ya TTS ya Kibiashara
Sifa za prosody zilizotabiriwa na mfano uliopendekezwa zinaonyesha uhusiano wa juu zaidi na usomaji wa kibinadamu kuliko matokeo ya chaguo-msingi ya Google Cloud Nakala-hadi-Sauti.
- Sauti: Utabiri wa mfano ulikuwa na uhusiano bora na usomaji wa kibinadamu katika vitabu 22 kati ya 24 katika seti ya majaribio.
- Ukubwa: Utabiri wa mfano ulikuwa na uhusiano bora katika vitabu 23 kati ya 24.
4. Utekelezaji wa Kiufundi
4.1 Uundaji wa Kihisabati
Kazi ya utabiri wa prosody imewekwa kama shida ya urejeshaji. Kwa kuzingatia sentensi ya pembejeo $S$ inayowakilishwa na kiambishi chake cha MPNet $\mathbf{e}_S$, mfano $f_\theta$ uliowekwa vigezo na $\theta$ hutabiri vekta ya prosody $\mathbf{p}$: $$\mathbf{p} = [\hat{pitch}, \hat{volume}, \hat{rate}]^T = f_\theta(\mathbf{e}_S)$$ Mfano unafunzwa kupunguza hasara ya Hitilafu ya Mraba ya Wastani (MSE) kati ya utabiri wake $\hat{\mathbf{p}}$ na thamani za kweli za prosody $\mathbf{p}_{gt}$ zilizochimbuliwa kutoka kwa sauti ya kibinadamu: $$\mathcal{L}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \| \hat{\mathbf{p}}_i - \mathbf{p}_{gt,i} \|^2_2$$
4.2 Maelezo ya Muundo wa LSTM
Mfano mkuu wa mlolongo ni seli ya kawaida ya LSTM. Katika kila hatua $t$ (inayolingana na sentensi), inasasisha hali yake ya kufichwa $\mathbf{h}_t$ na hali ya seli $\mathbf{c}_t$ kulingana na pembejeo $\mathbf{x}_t$ (kiambishi cha MPNet) na hali za awali: $$\mathbf{i}_t = \sigma(\mathbf{W}_{xi}\mathbf{x}_t + \mathbf{W}_{hi}\mathbf{h}_{t-1} + \mathbf{b}_i)$$ $$\mathbf{f}_t = \sigma(\mathbf{W}_{xf}\mathbf{x}_t + \mathbf{W}_{hf}\mathbf{h}_{t-1} + \mathbf{b}_f)$$ $$\mathbf{o}_t = \sigma(\mathbf{W}_{xo}\mathbf{x}_t + \mathbf{W}_{ho}\mathbf{h}_{t-1} + \mathbf{b}_o)$$ $$\tilde{\mathbf{c}}_t = \tanh(\mathbf{W}_{xc}\mathbf{x}_t + \mathbf{W}_{hc}\mathbf{h}_{t-1} + \mathbf{b}_c)$$ $$\mathbf{c}_t = \mathbf{f}_t \odot \mathbf{c}_{t-1} + \mathbf{i}_t \odot \tilde{\mathbf{c}}_t$$ $$\mathbf{h}_t = \mathbf{o}_t \odot \tanh(\mathbf{c}_t)$$ ambapo $\sigma$ ni kitendakazi cha sigmoid, $\odot$ inaashiria kuzidisha kwa kipengele-kwa-kipe, na $\mathbf{W}$ na $\mathbf{b}$ ni vigezo vinavyoweza kujifunza. Hali ya mwisho iliyofichwa $\mathbf{h}_t$ hupitishwa kupitia safu iliyounganishwa kabisa ili kutoa utabiri wa prosody wenye vipimo 3.
5. Matokeo ya Majaribio
5.1 Vipimo vya Uwiano na Mchoro 1
Kipimo kikuu cha tathmini ni mgawo wa uhusiano (k.m., r ya Pearson) kati ya muundo wa prosody uliotabiriwa na muundo wa prosody uliosomwa na binadamu katika sura. Mchoro 1 katika karatasi unaonyesha njama ya nukta inayolinganisha uhusiano wa kibinadamu-TTS kwa mfumo uliopendekezwa na Google Cloud TTS katika vitabu 24 vya majaribio.
- Maelezo ya Chati (Mch. 1a - Sauti): Mhimili wa x unawakilisha vitabu tofauti. Kila kitabu kina nukta mbili: moja kwa uhusiano wa sauti wa mfano uliopendekezwa na usomaji wa kibinadamu, na nyingine kwa uhusiano wa Google TTS. Njia hiyo inaonyesha kwa kuona nukta ya mfano (labda kwa rangi tofauti) ikiwa juu kuliko nukta ya Google kwa idadi kubwa ya vitabu, ikisaidia kwa kiasi kifuatavyo madai ya 22/24.
- Maelezo ya Chati (Mch. 1b - Ukubwa): Njia sawa ya nukta kwa uhusiano wa ukubwa, inayoonyesha utendaji wenye nguvu zaidi na mfano uliopendekezwa, unaolingana na matokeo ya 23/24.
5.2 Utafiti wa Tathmini ya Kibinadamu
Zaidi ya vipimo vya uhusiano, utafiti wa tathmini ya kibinadamu ulifanyika. Utabiri wa prosody wa mfano ulitumika kutengeneza lebo za SSML (Lugha ya Alama ya Uundaji wa Usemi) kudhibiti injini ya TTS. Wasikilizaji walipewa matoleo mawili: sauti ya chaguo-msingi ya Google TTS na sauti iliyoboreshwa ya SSML kwa kutumia utabiri wa mfano. Matokeo yalikuwa changamano: idadi ndogo ya wengi (watu 12 kati ya 22) walipendelea usomaji ulioboreshwa wa SSML, lakini upendeleo haukuwa mkubwa sana. Hii inaangazia utata wa tathmini ya ubora wa sauti ya kibinafsi na inaonyesha kwamba ingawa mfano unakamata mienendo ya lengo ya prosody vizuri, kuunganisha kwa usawa katika matokeo ya mwisho ya sauti bado ni changamoto.
6. Mfumo wa Uchambuzi na Utafiti wa Kesi
Mfumo wa Uchambuzi wa Prosody ya Simulizi:
- Mgawanyiko wa Maandishi na Uchambuzi: Gawanya riwaya katika sentensi. Endesha mifereji ya NLP kwa:
- Utambuzi wa Huluki Zilizopewa Majina (NER) kutambua wahusika.
- Kuhusishwa kwa maneno ya moja kwa moja kuunganisha mazungumzo na wahusika.
- Uainishaji wa maandishi kuweka lebo za sentensi kama "Simulizi," "Mazungumzo," au "Maelezo."
- Uundaji wa Vipengele vya Kimuktadha: Kwa kila sentensi, unda vipengele:
- Bendera za binary: `is_dialogue`, `is_narrative`.
- Kitambulisho cha mhusika anayesema (ikiwa katika mazungumzo).
- Metadata: jinsia ya mhusika (kutoka kwa msingi wa maarifa ya nje).
- Kiambishi cha sentensi (MPNet) kinachokamata yaliyomo ya maana.
- Uchimbaji wa Lebo za Prosody: Kutoka kwa sauti iliyolinganishwa kwa wakati, chimbua sauti (F0), ukubwa (nishati ya RMS), na kasi ya kusema (silabi/muda) kwa kila sentensi.
- Ufundishaji na Utabiri wa Mfano: Fundisha mfano wa LSTM (Sehemu ya 4.2) kwenye jozi za {vipengele → lebo za prosody}. Kwa maandishi mapya, tumia mfano uliofunzwa kutabiri sifa za prosody.
- Uzalishaji wa SSML na Uundaji: Badilisha sauti iliyotabiriwa (kama kizidishi cha jamaa, k.m., `+20%`), ukubwa (k.m., `+3dB`), na kasi (k.m., `polepole`) kuwa lebo za SSML. Toa maandishi yaliyo na lebo kwa injini ya ubora wa juu ya TTS ya neva (k.m., Google, Amazon Polly) kwa ajili ya utayarishaji wa mwisho wa sauti.
7. Matumizi ya Baadaye na Mwelekeo
- Usimulizi wa Kibinafsi wa Vitabu vya Sauti: Watumiaji wanaweza kuchagua "mtindo wa msimulizi" (k.m., "tulivu," "kishujaa," "dharau") kwa kurekebisha mfano wa utabiri wa prosody kwenye vitabu vya sauti vinavyosomwa na wasimulizi wenye mtindo huo.
- Usimulizi wa Hadithi wa Wakati Halisi wa Kuingiliana: Ujumuishaji katika injini za michezo au majukwaa ya hadithi zinazoingiliana, ambapo prosody hurekebishwa kwa nguvu kulingana na mvutano wa simulizi, uhusiano wa wahusika, na chaguzi za mchezaji.
- Ufikiaji na Kujifunza Lugha: TTS iliyoboreshwa kwa watumiaji wenye ulemavu wa kuona, ikitoa ufikiaji wa kuvutia zaidi na unaoeleweka kwa fasihi. Inaweza pia kusaidia wanaojifunza lugha kwa kutoa mifano ya matamshi yenye ufasaha zaidi na inayozingatia muktadha.
- Vifaa vya Ubunifu vya Njia Nyingi: Kwa waandishi na watengenezaji wa sauti, vifaa vinavyopendekeza alama za prosody katika hati au kutoa rasimu za sauti zenye ufasaha kwa ajili ya ukaguzi.
- Mwelekeo wa Utafiti - Hisia na Maoni: Kupanua mfano kutabiri prosody ya hisia yenye undani zaidi (k.m., furaha, huzuni, hasira) kwa kujumuisha uchambuzi wa hisia na utambuzi wa hisia kutoka kwa maandishi, sawa na juhudi katika TTS ya kihisia inayoonwa katika utafiti kutoka taasisi kama Taasisi ya Teknolojia ya Lugha ya Chuo Kikuu cha Carnegie Mellon.
- Mwelekeo wa Utafiti - Mifumo ya Mwisho-hadi-Mwisho: Kuendelea zaidi ya udhibiti wa baadaye wa SSML hadi kufunza mfumo wa neva wa TTS wa mwisho-hadi-mwisho (kama Tacotron 2 au FastSpeech 2) ambapo utabiri wa prosody ni sehemu muhimu, iliyowekwa masharti ya mfano wa sauti, ikitoa matokeo ya asili zaidi na yenye mshikamano.
8. Marejeo
- Pethe, C., Pham, B., Childress, F. D., Yin, Y., & Skiena, S. (2025). Uchambuzi wa Prosody wa Vitabu vya Sauti. arXiv preprint arXiv:2310.06930v3.
- Vaswani, A., et al. (2017). Umakini Ni Yote Unayohitaji. Maendeleo katika Mifumo ya Usindikaji wa Habari ya Neva 30 (NIPS 2017).
- Hochreiter, S., & Schmidhuber, J. (1997). Kumbukumbu ya Muda Mfupi-Mrefu. Hesabu ya Neva, 9(8), 1735–1780.
- Song, K., et al. (2020). MPNet: Ufundishaji wa Kufichwa na Kubadilishwa kwa Uelewa wa Lugha. Maendeleo katika Mifumo ya Usindikaji wa Habari ya Neva 33 (NeurIPS 2020).
- Google Cloud. (n.d.). Nakala-hadi-Sauti. Imepatikana kutoka https://cloud.google.com/text-to-speech
- Shirika la Wavuti Duniani (W3C). (2010). Lugha ya Alama ya Uundaji wa Usemi (SSML) Toleo la 1.1. Mapendekezo ya W3C.
- Zen, H., et al. (2019). LibriTTS: Kikusanyiko Kilichotokana na LibriSpeech kwa Nakala-hadi-Sauti. Interspeech 2019.
Mtazamo wa Mchambuzi: Uchambuzi Muhimu
Uelewa Muhimu: Karatasi hii sio tu juu ya kufanya roboti zisikike kama binadamu zaidi; ni utumiaji mzuri wa seti kubwa ya data isiyotumiwa vyema—utendaji wa vitabu vya sauti vya kibinadamu—kurekebisha kanuni zisizo wazi za utoaji wa simulizi. Waandishi wametambua kwa usahihi kwamba tasnia ya vitabu vya sauti yenye thamani ya bilioni kwa asili ni seti kubwa, iliyopo tayari ya uchambuzi wa usemi wenye ufasaha. Uelewa wao muhimu ni kumtazama msimulizi kama sensor ya usahihi wa juu ya hisia za maandishi, dhana inayolingana na jinsi CycleGAN (Zhu et al., 2017) inavyotumia seti za picha zisizo na jozi kujifunza tafsiri ya mtindo—hapa, "mtindo" ni utendaji wa prosody.
Mtiririko wa Kimantiki: Mantiki ni ya kulazimisha: 1) Linganisha maandishi na sauti kuunda seti ya data iliyosimamiwa. 2) Tumia NLP thabiti (MPNet) kuelewa maandishi. 3) Tumia mfano wa mlolongo (LSTM) kuweka ramani ya muktadha kwa prosody. 4) Shinda kampuni kubwa ya kibiashara (Google) kwenye mchezo wake mwenyewe kwenye vipimo vya uhusiano. Mtiririko kutoka kwa uundaji wa data hadi ubora wa mfano ni safi na unaungwa mkono vizuri na viwango vyao vya ushindi vya 22/24 na 23/24. Hata hivyo, mnyororo huo unadhoofika katika kiungo cha mwisho, muhimu: upendeleo wa kibinafsi wa msikilizaji. Matokeo ya 12/22 hayana nguvu ya kitakwimu na yanaonyesha shida ya kila wakati ya "vipimo vizuri, uzoefu wa wastani" katika sauti ya AI.
Nguvu na Kasoro: Nguvu haina shaka katika seti ya data na ubora unaoweza kupimika dhidi ya msingi wa TTS katika kukamata muundo wa lengo wa prosody. Uchambuzi wa kiwango cha mhusika (kiume dhidi ya kike, simulizi dhidi ya mazungumzo) ni kipande cha uchunguzi wa kiutendaji kinachotoa uthibitisho wa mfano na uelewa wa kuvutia wa utendaji wa kibinadamu. Kasoro kuu ni kutegemea udukuzi wa baadaye wa SSML. Kama mhandisi yeyote wa sauti atakwambia, kutumia udhibiti wa prosody baada ya tukio kwa sauti ya TTS ya kawaida mara nyingi husikika kuwa ya bandia na isiyoungana—kama kutumia kiwango cha picha kwenye rekodi duni. Matokeo ya tathmini ya kibinadamu yanatangaza kikomo hiki. Mfano hutabiri noti sahihi, lakini injini ya uundaji haiwezi kuzicheza kwa usahihi. Mbinu ya kusudi zaidi, ya mwisho-hadi-mwisho, kama ilivyoanzishwa na mifano kama FastSpeech 2, ni hatua inayofuata muhimu lakini ngumu zaidi.
Uelewa Unaoweza Kutekelezwa: Kwa timu za bidhaa, ujumbe wa haraka ni kukodisha au kujenga juu ya seti hii ya data na mfano ili kuongeza hali ya "Msimulizi" au "Ufasaha" kwenye matoleo yaliyopo ya TTS—kipengele kinachowezekana cha karibuni. Kwa watafiti, njia ni mbili: Kwanza, jumuisha utabiri huu wa prosody moja kwa moja katika mfano wa sauti wa mfumo wa TTS wa neva, kuendelea zaidi ya SSML. Pili, panua uchambuzi zaidi ya sifa tatu za msingi kujumuisha ubora wa sauti (kupumua, ukali) na hali za hisia zenye undani zaidi, labda kutumia rasilimali kama kikusanyiko cha MSP-Podcast kwa uchambuzi wa usemi wa kihisia. Karatasi hii imefanikiwa kufungua mfereji tajiri wa utafiti; sasa kazi ngumu ya kusafisha madini huanza.