1. Utangulizi
Makala yanatanguliza J-MAC (Kikundi cha Takwimu za Sauti za Vitabu vya Kusikiliza vya Wazungumzaji Wengi wa Kijapani), kikundi kipya cha takwimu za sauti kilichoundwa ili kuendeleza utafiti katika uundaji wa sauti wenye ufasaha na utambuzi wa muktadha, hasa kwa matumizi ya vitabu vya kusikiliza. Waandishi wanadai kuwa ingawa TTS ya mtindo wa kusoma imefikia ubora unaokaribia ule wa binadamu, mpaka unaofuata unahusisha kushughulikia miktadha changamano inayovuka sentensi, ufasaha maalum wa msemaji, na mtiririko wa hadithi—sifa za usimulizi wa kitaalamu wa vitabu vya kusikiliza. Ukosefu wa vikundi vya takwimu za vitabu vya kusikiliza vya ubora wa juu na vya wazungumzaji wengi, hasa kwa lugha kama Kijapani, umetambuliwa kama kikwazo kikuu. J-MAC inalenga kujaza pengo hili kwa kutoa rasilimali iliyojengwa kutoka kwa vitabu vya kusikiliza vilivyosimuliwa kitaalamu, kwa kutumia mfumo wa ujenzi wa kiotomatiki usioegemea lugha.
2. Ujenzi wa Kikundi cha Takwimu
Ujenzi wa J-MAC unahusisha mfumo wa hatua tatu: ukusanyaji wa takwimu, usafishaji, na ulinganifu sahihi wa maandishi-sauti.
2.1 Ukusanyaji wa Takwimu
Vitabu vya kusikiliza vilichaguliwa kulingana na vigezo viwili vikuu: 1) Upatikanaji wa maandishi sahihi ya kumbukumbu (kupendelea riwaya zisizo na hakimiliki ili kuepuka makosa ya utafsiri wa ASR kwenye majina maalum), na 2) Uwepo wa matoleo mengi ya kitaalamu ya msemaji mbalimbali ya kitabu kilekile ili kukamata ufasaha unaotegemea msemaji. Mwelekeo huu kwenye rekodi sambamba (kitabu kilekile, wazungumzaji tofauti) ni chaguo la kimkakati ili kuwezesha masomo yaliyodhibitiwa kuhusu mtindo wa msemaji.
2.2 Usafishaji & Ulinganifu wa Takwimu
Sauti ya kitabu cha kusikiliza iliyobaki hupitia mchakato wa usafishaji wa hatua nyingi. Kwanza, kutenganisha sauti na muziki (mfano, kwa kutumia zana kama Spleeter au Open-Unmix) hutenganisha sauti ya msemaji kutoka kwa muziki wowote wa usuli au athari za sauti. Kisha, Uainishaji wa Muda wa Muunganisho (CTC), kwa kawaida kutoka kwa muundo wa ASR uliofunzwa awali, hutoa ulinganifu mbaya kati ya sehemu za sauti na maandishi yanayolingana. Mwishowe, Ugunduzi wa Shughuli za Sauti (VAD) hutumiwa kuboresha mipaka ya sehemu za usemi, kuhakikisha matamshi safi na sahihi yanayolingana na maandishi.
3. Mbinu ya Kiufundi
Uvumbuzi mkuu upo katika mfumo wa kiotomatiki, ambao hupunguza juhudi za mikono.
3.1 Kutenganisha Sauti na Muziki
Hatua hii ni muhimu sana kwa kupata takwimu "safi" za sauti. Makala yanadokeza matumizi ya miundo ya kutenganisha vyanzo ili kutoa wimbo wa sauti, na kuondoa vipengele visivyo vya usemi ambavyo vinaweza kudhoofisha mafunzo ya muundo wa TTS.
3.2 Ulinganifu Kulingana na CTC
Ulinganifu wa CTC unatumiwa kwa uwezo wake wa kushughulikia mfuatano wa urefu tofauti bila mgawanyiko wazi. Chaguo la hasara la CTC, $L_{CTC} = -\log P(\mathbf{y}|\mathbf{x})$, ambapo $\mathbf{x}$ ni pembejeo ya sauti na $\mathbf{y}$ ni mfuatano wa lebo lengwa, huruhusu muundo kujifunza ulinganifu kati ya fremu za sauti na herufi/fonimu za maandishi.
3.3 Usafishaji wa VAD
Baada ya ulinganifu wa CTC, algoriti za VAD (mfano, kulingana na kizingiti cha nishati au mitandao ya neva) hutumiwa kugundua mwanzo na mwisho sahihi wa usemi ndani ya sehemu zilizolinganishwa kwa ujumla, na kuondoa kimya au kelele za mwanzo/mwisho.
4. Tathmini & Matokeo
Waandishi walifanya tathmini za uundaji wa sauti za vitabu vya kusikiliza kwa kutumia miundo iliyofunzwa kwenye J-MAC. Matokeo muhimu ni pamoja na:
- Ujumuishaji wa Mbinu: Uboreshaji katika mbinu ya msingi ya usanisi (mfano, miundo bora ya sauti) uliboresha uasili wa sauti iliyosanisiwa kwa wazungumzaji wote katika kikundi cha takwimu.
- Sababu Zilizochanganyika: Uasili wa sauti iliyosanisiwa ya kitabu cha kusikiliza uliathiriwa sana na mwingiliano changamano kati ya mbinu ya usanisi, sifa za sauti za msemaji lengwa, na kitabu/maudhui maalum yanayosanisiwa. Kutenganisha sababu hizi bado ni changamoto.
Ufahamu wa Tathmini
Matokeo ya Msingi: Ubora wa usanisi hutegemea kwa njia isiyo ya kawaida mwingiliano wa Msemaji x Mbinu x Maudhui.
5. Ufahamu Muhimu & Majadiliano
- J-MAC inashughulikia suala muhimu la uhaba wa takwimu kwa utafiti wa TTS wenye ufasaha katika Kijapani.
- Mfumo wa ujenzi wa kiotomatiki ni mchango mkubwa, ukipunguza gharama na muda wa kuunda vikundi kama hivyo vya takwimu na kuweza kutumika kwa lugha zingine.
- Tathmini inasisitiza kwamba usanisi wa vitabu vya kusikiliza sio tu kuongeza kiwango cha TTS ya sentensi moja; inahitaji kuiga muktadha wa kiwango cha juu wa hadithi na utambulisho wa msemaji.
- Uvumbuzi wa "mchanganyiko" unadokeza kwamba viashiria vya tathmini na miundo vya baadaye vinahitaji kuzingatia sababu nyingi.
6. Uchambuzi wa Asili: Mtazamo wa Sekta
Ufahamu wa Msingi: Makala ya J-MAC si tu kuhusu seti mpya ya takwimu; ni hatua ya kimkakati ya kubadilisha dhana ya TTS kutoka kwa uzalishaji wa matamshi yaliyotengwa hadi kuiga hadithi kwa ujumla. Waandishi wametambua kwa usahihi kwamba hatua inayofuata ya thamani katika uundaji wa sauti iko katika maudhui marefu yenye ufasaha kama vitabu vya kusikiliza, podcast, na hadithi zinazoshirikiana—maeneo ambapo TTS ya sasa bado inasikika kama roboti na isiyojali muktadha. Kwa kufungua rasmi kikundi cha takwimu cha wazungumzaji wengi, hawatoki takwimu tu; wanaweka kiwango na ajenda ya utafiti.
Mtiririko wa Mantiki: Mantiki yao ni kamili: 1) Takwimu za ubora wa juu ndizo mafuta ya ujifunzaji wa kina. 2) Vitabu vya kusikiliza vya kitaalamu ndivyo kiwango cha dhahabu cha sauti yenye ufasaha na mwunganisho wa muktadha. 3) Uundaji wa kikundi cha takwimu kwa mikono ni wa gharama kubwa sana. Kwa hivyo, mfumo wa kiotomatiki (kutenganisha → ulinganifu wa CTC → VAD) ndio suluhisho pekee linaloweza kuongezeka. Hii inafanana na harakati ya AI inayozingatia takwimu iliyoshinikizwa na Andrew Ng, ambapo ubora wa mfumo wa takwimu ni muhimu kama muundo wa muundo.
Nguvu & Kasoro: Nguvu kuu ni utendaji wa mfumo na muundo usioegemea lugha. Kutumia vipengele vilivyopo tayari kama miundo ya kutenganisha vyanzo (mfano, kulingana na miundo kama U-Net iliyotumika katika Demucs) na ASR kulingana na CTC hufanya iweze kurudiwa. Hata hivyo, kasoro ya makala ni mguso wake mwepesi kwenye tatizo la "muktadha" analolisisitiza. Inatoa takwimu (J-MAC) lakini inatoa suluhisho ndogo za muundo mpya wa kutumia muktadha unaovuka sentensi au kutenganisha mtindo wa msemaji na maudhui. Matokeo ya tathmini, ingawa yana ufahamu, ni ya kuelezea badala ya kuelekeza. Tunaimu vipi sababu "zilizochanganyika"? Mbinu kutoka kwa uhamisho wa mtindo na ujifunzaji wa uwakilishi uliotenganishwa, kama zile katika CycleGAN au viingizaji vya kiotomatiki vinavyobadilika, zinatolewa ishara lakini hazijachunguzwa kwa kina.
Ufahamu Unaoweza Kutekelezwa: Kwa watendaji wa sekta, hitimisho ni mbili. Kwanza, wekeza katika kujenga au kupata vikundi kama hivyo vya sauti vya urefu mrefu na mitindo mingi—itakuwa tofauti muhimu. Pili, kipaumbele cha utafiti kinapaswa kuwa kwenye miundo inayotambua muktadha. Hii inaweza kumaanisha miundo ya msingi ya transformer yenye madirisha ya muktadha marefu zaidi, au miundo ya kihierarkia ambayo huingiza kando sauti za ndani, mtindo wa msemaji, na safu ya hadithi ya kimataifa. Kazi ya timu kama Google Brain kwenye SoundStream au Microsoft kwenye VALL-E inaelekeza kuelekea mbinu za msingi za codec za neva ambazo zinaweza kupanuliwa na ishara za muktadha zinazotolewa na J-MAC. Siku zijazo sio tu kusanisi sentensi; ni kusanisi utendaji.
7. Maelezo ya Kiufundi & Uundaji wa Kihisabati
Mchakato wa ulinganifu unategemea sana lengo la CTC. Kwa mfuatano wa pembejeo $\mathbf{x}$ (vipengele vya sauti) vya urefu $T$ na mfuatano wa lebo lengwa $\mathbf{l}$ (herufi za maandishi) ya urefu $U$, ambapo $T > U$, CTC huleta ishara tupu $\epsilon$ na kufafanua ramani nyingi-hadimoja $\mathcal{B}$ kutoka kwa njia $\pi$ (ya urefu $T$) hadi $\mathbf{l}$. Uwezekano wa njia ni: $P(\pi|\mathbf{x}) = \prod_{t=1}^{T} y_{\pi_t}^t$, ambapo $y_{\pi_t}^t$ ni uwezekano wa alama $\pi_t$ kwa wakati $t$. Uwezekano wa masharti wa mfuatano wa lebo ni jumla ya njia zote zilizoratibiwa nayo na $\mathcal{B}$: $P(\mathbf{l}|\mathbf{x}) = \sum_{\pi \in \mathcal{B}^{-1}(\mathbf{l})} P(\pi|\mathbf{x})$. Uundaji huu huruhusu muundo kujifunza ulinganifu bila takwimu zilizogawanywa awali. Katika mfumo wa J-MAC, muundo wa CTC uliofunzwa awali (mfano, kulingana na muundo kama wa DeepSpeech2) hutoa ulinganifu huu ili kugawanya sauti.
8. Matokeo ya Majaribio & Maelezo ya Chati
Ingawa sehemu iliyotolewa ya PDF haina chati wazi, matokeo yaliyoelezwa yanamaanisha muundo wa tathmini wenye sababu nyingi. Chati ya matokeo ya kubuni ambayo ingeonyesha uvumbuzi wao mkuu ingekuwa ramani ya uso wa 3D au mfululizo wa chati za mhimili zilizogawanywa.
Maelezo ya Chati: Mhimili-y unawakilisha Alama ya Maoni ya Wastani (MOS) kwa uasili (mfano, kiwango cha 1-5). Mhimili-x unaorodhesha mbinu tofauti za usanisi (mfano, Tacotron2, FastSpeech2, muundo uliopendekezwa). Kikundi/mhimili-z kingewakilisha wazungumzaji tofauti kutoka J-MAC (Msemaji A, B, C) na/au vitabu tofauti (Kitabu X, Kitabu Y). Uvumbuzi mkuu wa kuona ungekuwa kwamba urefu wa mhimili (MOS) haufuati mpangilio thabiti katika vikundi. Kwa mfano, Mbinu 1 inaweza kuwa bora kwa Msemaji A kwenye Kitabu X, lakini mbaya zaidi kwa Msemaji B kwenye Kitabu Y, ikionyesha wazi "mchanganyiko mkubwa" wa sababu. Mistari ya makosa ingeonyesha kuingiliana kwa maana, ikionyesha changamoto ya kutoa hitimisho rahisi.
9. Mfumo wa Uchambuzi: Mfano wa Kesi
Uchunguzi wa Kesi: Kutathmini Muundo Mpya wa TTS kwa Vitabu vya Kusikiliza
Lengo: Kubaini ikiwa "Model-Z" inaboresha msingi wa usanisi wa vitabu vya kusikiliza kwa kutumia J-MAC.
Mfumo:
- Mgawanyiko wa Takwimu: Gawanya J-MAC kwa kitabu na msemaji. Hakikisha seti za majaribio zina sentensi zisizoonwa kutoka kwa vitabu vilivyoonwa katika mafunzo (ndani ya kikoa) na vitabu visivyoonwa kabisa (nje ya kikoa).
- Mafunzo ya Muundo: Funza Msingi (mfano, FastSpeech2) na Model-Z kwenye mgawanyiko sawa wa mafunzo. Tumia jozi za maandishi-sauti za J-MAC.
- Tathmini Iliyodhibitiwa: Tokeza sauti kwa mfuatano sawa wa maandishi katika hali zote za majaribio (mchanganyiko wa Msemaji x Kitabu).
- Viashiria:
- Msingi: MOS kwa Uasili na Ufasaha.
- Cha Pili: Kiwango cha Makosa ya Neno (WER) cha ASR kwenye sauti iliyosanisiwa (uelewevu), Alama ya Ufanano wa Msemaji (mfano, kwa kutumia muundo wa uthibitishaji wa msemaji kama ECAPA-TDNN).
- Kiwango cha Kimuktadha: Jaribio la A/B ambapo watahiniwa husikiliza sentensi mbili mfululizo zilizosanisiwa na kukadiria mwunganisho.
- Uchambuzi: Fanya uchambuzi wa takwimu kama ANOVA ili kutenganisha athari ya Muundo, Msemaji, Kitabu, na mwingiliano wao kwenye alama za MOS. Dhana tupu ingekuwa "Model-Z haina athari bila kujali Msemaji na Kitabu."
10. Matumizi ya Baadaye & Mwelekeo wa Utafiti
- Vitabu vya Kusikiliza Vilivyobinafsishwa: Kusanisi vitabu kwa sauti ya msanii anayependwa na mtumiaji au hata nakala ya sauti ya kibinafsi.
- Usimulizi wa Kukabiliana kwa Michezo/XR: Kutoa mazungumzo na usimulizi wenye ufasaha na utambuzi wa muktadha kwa wakati halisi kwa vyombo vya mawasiliano vinavyoshirikiana.
- Upatikanaji: Kupunguza kwa kiasi kikubwa muda na gharama ya kutengeneza vitabu vya kusikiliza kwa wenye ulemavu wa kuona au kwa vitabu katika lugha zenye rasilimali chache.
- Mwelekeo wa Utafiti:
- Ujifunzaji wa Uwakilishi Ulioachwa: Kuendeleza miundo ambayo inatenganisha wazi maudhui, mtindo wa msemaji, hisia, na toni ya hadithi katika vigeu vya siri.
- Kuiga Muktadha Mrefu: Kutumia aina bora za transformer (mfano, Longformer, Performer) ili kudhibiti usanisi kulingana na aya nzima au sura.
- Uhamishaji & Udhibiti wa Sauti: Kuwezesha udhibiti mwembamba wa mwendo, msisitizo, na mshindo katika aya ndefu, labda kwa kutumia vipande vya sauti vya kumbukumbu kama ishara za mtindo.
- Upanuzi wa Kuvuka Lugha: Kutumia mfumo wa ujenzi wa J-MAC kujenga vikundi kama hivyo vya takwimu kwa lugha zingine, na kukuza masomo ya kulinganisha.
11. Marejeo
- J. Shen, et al., "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions," ICASSP 2018.
- A. Vaswani, et al., "Attention Is All You Need," NeurIPS 2017.
- Y. Ren, et al., "FastSpeech: Fast, Robust and Controllable Text to Speech," NeurIPS 2019.
- J.-Y. Zhu, et al., "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," ICCV 2017 (CycleGAN).
- A. Défossez, et al., "Demucs: Deep Extractor for Music Sources with extra unlabeled data remixed," arXiv:1909.01174.
- A. van den Oord, et al., "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499.
- J. Kong, et al., "HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis," NeurIPS 2020.
- N. Zeghidour, et al., "SoundStream: An End-to-End Neural Audio Codec," arXiv:2107.03312.
- A. Graves, et al., "Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks," ICML 2006.
- Andrew Ng, "Data-Centric AI," DeepLearning.AI.