1. Utangulizi
Makala yanatanguliza J-MAC (Kikundi cha Sauti za Vitabu vya Kusikiliza vya Wazungumzaji Wengi cha Kijapani), kikundi kipya cha sauti kilichoundwa ili kuendeleza utafiti katika uundaji wa sauti wenye ufasaha na utambuzi wa muktadha, hasa kwa matumizi ya vitabu vya kusikiliza. Waandishi wanasema kuwa ingawa TTS ya mtindo wa kusoma imefikia ubora wa karibu na wa binadamu, mpaka unaofuata unahusisha kushughulikia muktadha changamano unaovuka sentensi, ufasaha maalum wa msemaji, na mtiririko wa hadithi—yote muhimu kwa utengenezaji wa vitabu vya kusikiliza vinavyovutia. Ukosefu wa vikundi vya sauti vya vitabu vya kusikiliza vya wazungumzaji wengi wenye ubora wa juu umekuwa kikwazo kikubwa. J-MAC inashughulikia hili kwa kutoa njia ya kuunda kikundi kama hicho kiotomatiki kutoka kwa vitabu vya kusikiliza vinavyopatikana kibiashara vilivyosomwa na wasimulizi wa kitaaluma, na kufanya seti ya data inayotokana iwe huria.
2. Uundaji wa Kikundi cha Sauti
Mchakato wa uundaji ni hatua tatu zilizoundwa kwa otomatiki na uhuru wa lugha.
2.1 Ukusanyaji wa Data
Vitabu vya kusikiliza huchaguliwa kulingana na vigezo kuu viwili: 1) Upatikanaji wa maandishi sahihi ya kumbukumbu (kwa upendeleo riwaya zisizo na hakimiliki ili kuepuka makosa ya ASR kwenye majina maalum), na 2) Uwepo wa matoleo mengi yaliyosimuliwa na wasemaji tofauti wa kitaaluma ili kukamata mitindo tofauti ya ufasaha. Hii inapendelea utofauti wa wasemaji kuliko wingi wa data kutoka kwa msemaji mmoja.
2.2 Usafishaji na Ulinganishaji wa Data
Sauti ghafi hupitiwa uchakataji ili kutenganisha sehemu safi za sauti na kuzilinganisha kwa usahihi na maandishi yanayolingana. Hii inahusisha utenganishaji chanzo, ulinganishaji wa jumla kwa kutumia Uainishaji wa Muda wa Muunganisho (CTC), na uboreshaji wa kina kwa kutumia Ugunduzi wa Shughuli za Sauti (VAD).
3. Mbinu ya Kiufundi
3.1 Kutenganisha Sauti na Muziki
Ili kutenganisha sauti safi kutoka kwa muziki wa usuli au athari za sauti katika utengenezaji wa vitabu vya kusikiliza, mfano wa kutenganisha chanzo (kama vile ule unaotegemea Deep Clustering au Conv-TasNet) hutumiwa. Hatua hii ni muhimu sana kupata data ya mafunzo yenye usahihi wa juu kwa miundo ya usanisi.
3.2 Ulinganishaji Kulingana na CTC
Mfano wa ASR uliofunzwa kwa CTC hutoa ulinganishaji wa awali, wa jumla kati ya mawimbi ya sauti na mlolongo wa maandishi. Kazi ya hasara ya CTC $\mathcal{L}_{CTC} = -\log P(\mathbf{y}|\mathbf{x})$, ambapo $\mathbf{x}$ ni mlolongo wa pembejeo na $\mathbf{y}$ ni mlolongo wa lebo lengwa, huruhusu ulinganishaji bila mgawanyiko wa kulazimishwa.
3.3 Uboreshaji Kulingana na VAD
Ulinganishaji wa jumla wa CTC huboreshwa kwa kutumia mfumo wa Ugunduzi wa Shughuli za Sauti. Hatua hii huondoa sehemu zisizo za usemi (vipumziko, pumzi) na kurekebisha mipaka ili kuhakikisha kila sehemu ya sauti inalingana kwa usahihi na kitengo cha maandishi (k.m., sentensi), na kuboresha usahihi wa jozi za maandishi-sauti.
4. Matokeo ya Majaribio na Tathmini
Waandishi walifanya tathmini za usanisi wa sauti za vitabu vya kusikiliza kwa kutumia miundo iliyofunzwa kwenye J-MAC. Uvumbuzi muhimu ni pamoja na:
- Uboreshaji wa Mfano Unajumuishwa: Uboreshaji wa muundo wa usanisi uliboresha uhalisia wa sauti inayotolewa kwa wasemaji tofauti katika kikundi cha sauti.
- Sababu Zilizochanganyika: Uhalisia ulioonekana uliathiriwa sana na mwingiliano changamano kati ya njia ya usanisi, sifa za sauti za msemaji, na yaliyomo kwenye kitabu yenyewe. Kutenganisha sababu hizi bado ni changamoto.
Maelezo ya Chati (Yaliyodokezwa): Chati ya mfano ya baa ingeonyesha Alama za Maoni za Wastani (MOS) za uhalisia katika mifumo tofauti ya usanisi (k.m., Tacotron2, FastSpeech2) na wasemaji tofauti wa J-MAC. Chati ingeonyesha ubaguzi kati ya wasemaji kwa mfano uleule na mwenendo thabiti wa uboreshaji kwa miundo ya hali ya juu kwa wasemaji wote, na kuthibitisha kwa macho uvumbuzi wawili muhimu.
5. Ufahamu Muhimu na Majadiliano
- J-MAC imefanikiwa kutoa mchakato unaoweza kuongezeka na wa otomatiki wa kuunda vikundi vya sauti zenye ufasaha.
- Muundo wa wazungumzaji wengi, kitabu kilekile ni nguvu ya kipekee kwa kusoma utambulisho wa msemaji na ufasaha.
- Tathmini inasisitiza kwamba miundo ya baadaye ya TTS ya vitabu vya kusikiliza lazima izingatie hali ya mchanganyiko wa yaliyomo, msemaji, na mtindo.
6. Uchambuzi wa Asili: Mtazamo wa Sekta
Ufahamu Msingi: Makala ya J-MAC sio tu kuhusu seti mpya ya data; ni hatua ya kimkakati ya kubadilisha dhana ya TTS kutoka kwa utengenezaji wa usemi pekee hadi akili ya hadithi. Ingawa miundo kama WaveNet na Tacotron ilishinda usahihi, ilipuuza kwa kiasi kikubwa muundo mkubwa wa usemi. J-MAC, kwa kutoa hadithi zinazofanana kutoka kwa wasemaji wengi wa kitaaluma, ni msingi unaohitajika kwa miundo kujifunza sio tu jinsi ya kusema, bali jinsi ya kuigiza hadithi. Hii inalingana na mwenendo mpana wa sekta unaoonekana katika kazi kama makala ya Google AudioLM, ambayo inatafutiwa kuiga sauti kwa njia yenye utambuzi wa muktadha na ya kihierarkia.
Mtiririko wa Mantiki: Waandishi wanaibainisha kwa usahihi kikwazo cha data. Suluhisho lao ni la kimazoea: kuchimba uzalishaji wa kisanaa uliopo, wenye ubora wa juu (vitabu vya kusikiliza) badala ya kuagiza rekodi mpya. Mchakato wa kiufundi ni wa busara—kutumia teknolojia zilizokomaa (CTC, VAD) kwa mchanganyiko mpya kwa lengo maalum, lenye thamani kubwa. Tathmini kisha hutumia rasilimali hii mpya kufunua uvumbuzi muhimu, usio wazi: katika usanisi wenye ufasaha, huwezi kuboresha "mfano bora" usio na uhusiano na msemaji. Utendaji kazi unahusishwa kwa kiasi kikubwa na utambulisho wa msemaji.
Nguvu na Kasoro: Nguvu kuu ni kanuni ya muundo wa kikundi cha sauti. Uchaguzi wa wasemaji wa kitaaluma na ulinganishaji wa maandishi yale yale ni bora kwa masomo ya udhibiti. Mchakato wa otomatiki ni mchango muhimu kwa uwezekano wa kurudiwa. Hata hivyo, kasoro ya makala ni tathmini yake ya awali. Ufahamu wa "sababu zilizochanganyika" ni muhimu lakini umeainishwa tu. Uchambuzi wa kina, labda kwa kutumia mbinu kutoka kwa fasihi ya uhamisho wa mtindo (kama vile miundo ya encoder katika Global Style Tokens au mbinu za kutenganisha zilizochunguzwa katika CycleGAN-VC), inahitajika. Ni kiasi gani cha ubaguzi kinatokana na sauti ya akustiki dhidi ya mtindo wa lugha dhidi ya tafsiri ya maana? Makala yanafungua mlango lakini hayapitii.
Ufahamu Unaoweza Kutekelezwa: Kwa watafiti: Tumia J-MAC kuweka alama za mbinu za kutenganisha. Kwa timu za bidhaa: Kazi hii inaonyesha kwamba kizazi kijacho cha AI ya sauti kwa podikasti, matangazo, na vitabu hakitatoka kwa data zaidi za mtindo wa kusoma, bali kutoka kwa data ya utendaji wa hadithi. Anza kuandaa seti za data zenye ufasaha, za muda mrefu. Mbinu yenyewe inaweza kuhamishwa—fikiria "J-MAC kwa Podikasti" au "J-MAC kwa Matangazo ya Filamu." Somo kuu ni kwamba katika enzi ya miundo ya msingi, thamani ya kimkakati ya seti ya data yenye muundo wa kipekee na ubora wa juu kama J-MAC inaweza kuzidi ile ya muundo wowote wa mfano uliochapishwa pamoja nayo.
7. Maelezo ya Kiufundi na Mfumo wa Hisabati
Mchakato wa ulinganishaji unategemea algorithm ya mbele-nyuma ya CTC. Kwa kuzingatia mlolongo wa pembejeo $\mathbf{x}$ wa urefu $T$ na mlolongo lengwa $\mathbf{l}$ wa urefu $L$, CTC inafafanua usambazaji juu ya ulinganishaji kwa kuanzisha ishara tupu ($\epsilon$) na kuruhusu kurudiwa. Uwezekano wa lengo ni jumla ya ulinganishaji wote halali $\pi$:
$P(\mathbf{l} | \mathbf{x}) = \sum_{\pi \in \mathcal{B}^{-1}(\mathbf{l})} P(\pi | \mathbf{x})$
ambapo $\mathcal{B}$ ni kazi inayovunja ishara zilizorudiwa na kuondoa nafasi tupu. Uboreshaji wa VAD unaweza kutengenezwa kama kazi ya mgawanyiko, kupata mipaka $\{t_i\}$ ambayo huongeza uwezekano wa usemi ndani ya sehemu na usio wa usemi kati yao, mara nyingi kwa kutumia vipengele vya msingi wa nishati au kikaguzi kilichofunzwa.
8. Mfumo wa Uchambuzi: Mfano wa Utafiti
Hali: Kutathmini athari ya mtindo wa msemaji kwenye "ushirikisho" ulioonekana katika usanisi wa vitabu vya kusikiliza.
Utumiaji wa Mfumo:
- Mgawanyiko wa Data: Chukua wasemaji wawili wa kitaaluma (A & B) kutoka J-MAC ambao wamesimulia sura ileile ya riwaya.
- Utoaji wa Vipengele: Kwa kila usemi katika sura, toa maelezo ya kiwango cha chini (LLDs) kama vile muundo wa sauti, mienendo ya nishati, na muda wa vipumziko kwa kutumia zana kama OpenSMILE au Praat. Pia toa ulaji wa mtindo wa kiwango cha juu kwa kutumia mfano uliofunzwa awali kama HuBERT.
- Uchambuzi wa Kulinganisha: Kokotoa tofauti za takwimu (k.m., kwa kutumia t-tests au KL divergence) kati ya usambazaji wa LLDs kwa Msemaji A na Msemaji B kwa yaliyomo yale yale ya maandishi. Hii inapima "alama zao za kipekee" za lugha.
- Usanisi na Tathmini: Funza miundo miwili ya TTS: moja kwenye data ya Msemaji A, nyingine kwenye data ya Msemaji B. Sanisi kifungu kilekile cha riwaya kisichoonekana wakati wa mafunzo. Fanya jaribio la kusikiliza ambapo wakaguzi wanakadiria kila usanisi kwa "ufasaha" na "ushirikisho wa hadithi."
- Uhusiano: Unganisha tofauti za lengo za mtindo (Hatua ya 3) na alama za kihisia za ushirikisho (Hatua ya 4). Mfumo huu, unaowezeshwa na muundo wa J-MAC, unaweza kutenganisha ni vipengele gani vya akustiki vinachangia zaidi ubora wa utendaji unaoonekana.
9. Matumizi ya Baadaye na Mwelekeo wa Utafiti
- Uigaji na Ubadilishaji wa Sauti wenye Ufasaha: Data ya wazungumzaji wengi ya J-MAC ni bora kwa kuendeleza mifumo ya kukabiliana na sauti ya vidokezo vichache au sifuri ambayo inaweiga mtindo wa hadithi wa msemaji, sio tu sauti yao.
- Ujifunzaji wa Uwakilishi Uliotenganishwa: Kazi ya baadaye inaweza kutumia J-MAC kufunza miundo inayotenganisha yaliyomo, utambulisho wa msemaji, na mtindo wenye ufasaha katika nafasi tofauti za siri, na kuwezesha udhibiti mzuri wa usanisi.
- Usanisi wa Vitabu vya Kusikiliza vya Lugha Nyingi: Mbinu inaweza kutumika kwa lugha zingine ili kuunda vikundi sawa vya sauti, na kuwezesha utafiti juu ya kuhifadhi mtindo wenye ufasaha katika tafsiri au dubbing.
- Uundaji wa Yaliyomo Unaosaidiwa na AI: Ujumuishaji na miundo mikubwa ya lugha (LLMs) kunaweza kusababisha mifumo inayoandika na kuigiza hadithi fupi au yaliyomo ya sauti ya kibinafsi katika mtindo maalum wa msemaji.
- Zana za Ufikiaji: Kutoa vitabu vya kusikiliza vya ubora wa juu, vyenye ufasaha kwa ombi kwa maandishi yoyote ya kidijitali, na kupanua sana ufikiaji kwa watumiaji wenye ulemavu wa kuona.
10. Marejeo
- J. Shen, et al., "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions," ICASSP, 2018.
- A. Vaswani, et al., "Attention Is All You Need," NeurIPS, 2017.
- Y. Ren, et al., "FastSpeech: Fast, Robust and Controllable Text to Speech," NeurIPS, 2019.
- A. v. d. Oord, et al., "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499, 2016.
- J.-Y. Zhu, et al., "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," ICCV, 2017. (CycleGAN)
- Y. Wang, et al., "Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis," ICML, 2018.
- Google AI, "AudioLM: A Language Modeling Approach to Audio Generation," Google Research Blog, 2022.
- A. Graves, et al., "Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks," ICML, 2006.