Chagua Lugha

MultiActor-Audiobook: Uundaji wa Sauti za Kusoma bila Mafunzo ya Awali kwa Kutumia Nyuso na Sauti

Uchambuzi wa kiufundi wa MultiActor-Audiobook, mfumo mpya wa kuzalisha sauti za kusoma zenye ufasaha kwa kutumia sifa za mzungumzaji anuwai na maagizo ya hati yanayotokana na LLM.
audio-novel.com | PDF Size: 1.3 MB
Ukadiriaji: 4.5/5
Ukadiriaji Wako
Umekadiria waraka huu tayari
Kifuniko cha Waraka PDF - MultiActor-Audiobook: Uundaji wa Sauti za Kusoma bila Mafunzo ya Awali kwa Kutumia Nyuso na Sauti

1. Utangulizi na Muhtasari

MultiActor-Audiobook inatoa mfumo wa kuzalisha sauti za kusoma zenye ufasaha zilizo na wazungumzaji wengi tofauti bila mafunzo ya awali. Inashughulikia mapungufu makuu ya mifumo ya awali: gharama kubwa ya seti za data za watendaji wa sauti, upekee wa kikoa wa mifumo iliyofunzwa, na asili ya uchovu wa kufanya uboreshaji wa sauti kwa mikono. Ubunifu mkuu uko katika michakato yake miwili ya kiotomatiki, isiyo na mafunzo ya awali: Uundaji wa Sifa za Mzungumzaji Anuwai (MSP) na Uundaji wa Maagizo ya Hati Kulingana na LLM (LSI). Kwa kuchanganya sauti maalum za wahusika kutoka kwa sifa za kuonekana zilizoundwa na kukisia ishara za hisia/msukumo kutoka kwa muktadha wa maandishi, mfumo unalenga kutoa sauti za kusoma zilizo na masimulizi thabiti, yanayofaa na yenye ufasaha bila data yoyote ya mafunzo maalum ya kazi.

2. Mbinu Kuu

Ufanisi wa mfumo unategemea michakato miwili mpya, inayounganishwa ambayo hufanya kiotomatiki vipengele vigumu zaidi vya utengenezaji wa sauti za kusoma: uundaji wa sauti ya mhusika na usomaji wenye ufasaha.

2.1 Uundaji wa Sifa za Mzungumzaji Anuwai (MSP)

Mchakato huu huunda sauti ya kipekee, thabiti kwa kila mhusika katika hadithi kutoka kwa maelezo ya maandishi pekee.

  1. Utambuzi wa Kitu na Uchimbaji wa Sifa za Maandishi: LLM (k.m., GPT-4) huchambua hati ya riwaya kutambua vyombo vyote vinavyozungumza (wahusika, msemaji). Kwa kila moja, huchimba vipengele vya maelezo (tabia, umri, jukumu, sifa za kimwili) kutoka kwa maandishi ya masimulizi.
  2. Uundaji wa Sifa za Kuonekana: Mfumo wa maandishi-hadi-picha (k.m., Stable Diffusion) hutumia maelezo ya maandishi yaliyochimbwa kuzalisha picha ya uso inayoonyesha mhusika kimaumbile.
  3. Uundaji wa Sauti kutoka kwa Uso: Mfumo uliofunzwa awali wa Uso-hadi-Sauti (ukirejelea kazi kama [14]) huchukua picha ya uso iliyoundwa na maelezo yake kutoa sampuli fupi ya sauti. Sampuli hii inajumuisha vipengele vya kipekee vya msukumo vya mhusika (sauti, msingi wa sauti, mtindo wa kuzungumza). Sauti hii inakuwa kiini cha mazungumzo yote yanayofuata ya mhusika huyo.
Mfuatano huu hauhitaji mafunzo ya awali kabisa kwa wahusika wapya, hauhitaji rekodi za awali.

2.2 Uundaji wa Maagizo ya Hati Kulingana na LLM (LSI)

Ili kuepuka usomaji wa monotoniki, mchakato huu hutoa maagizo ya msukumo ya kiwango cha sentensi yanayobadilika.

  1. Uchambuzi Unaotambua Muktadha: Kwa kila sentensi itakayoundwa, LLM hutolewa: sentensi lengwa, muktadha unaozunguka (sentensi zilizopita/zijazo), na taarifa za sifa za mzungumzaji wa sasa.
  2. Uundaji wa Maagizo: LLM hutoa seti iliyopangwa ya maagizo inayobainisha hali ya hisia (k.m., "furaha," "huzuni"), toni (k.m., "kejeli," "mwenye mamlaka"), mabadiliko ya sauti, na kiwango cha kuzungumza kinachofaa kwa muktadha na mhusika.
  3. Kutoa Maagizo kwa TTS: Maagizo haya huwekwa katika muundo wa maagizo ya lugha asilia (k.m., "Sema hii kwa toni la [hisi] na mabadiliko ya [sauti]") ambayo huongoza mfumo uliofunzwa awali, unaoweza kuagizwa wa Maandishi-hadi-Sauti (TTS) kutoa sauti ya mwisho.
Hii hubadilisha uboreshaji wa mikono kwa ukisiaji wa kiotomatiki unaotambua muktadha.

3. Muundo wa Kiteknolojia na Maelezo

3.1 Mfuatano wa Mfumo

Mfuatano wa end-to-end unaweza kuonyeshwa kama mfuatano wa mlolongo: Maandishi ya Riwaya ya Ingizo → LLM (Utambuzi wa Mzungumzaji & Uchimbaji wa Sifa) → Text2Image (Uundaji wa Uso) → Face2Voice (Sampuli ya Sauti) → [Kwa Kila Mhusika]
Kwa kila sentensi: [Sentensi + Muktadha + Sifa] → LLM (LSI) → Prompt-TTS (na Sauti ya Mhusika) → Sehemu ya Sauti ya Matokeo
Sauti ya kusoma ya mwisho ni muunganisho wa wakati wa matokeo ya sentensi zote zilizochakatwa.

3.2 Uundaji wa Kihisabati

Mchakato mkuu wa uundaji wa sentensi $s_i$ inayosemwa na mhusika $c$ unaweza kuwekwa rasmi. Acha $C$ iwe dirisha la muktadha linalozunguka $s_i$, na $P_c$ iwe sifa anuwai za mhusika $c$ (yenye maelezo ya maandishi $D_c$, uso ulioundwa $F_c$, na sampuli ya sauti $V_c$).

Mchakato wa LSI hutoa vekta ya maagizo $I_i$: $$I_i = \text{LLM}_{\theta}(s_i, C, P_c)$$ ambapo $\text{LLM}_{\theta}$ ni mfumo mkubwa wa lugha wenye vigezo $\theta$.

Sauti ya mwisho $A_i$ ya sentensi huundwa na mfumo wa TTS unaoweza kuagizwa $\text{TTS}_{\phi}$, ukizingatia sauti ya mhusika $V_c$ na maagizo $I_i$: $$A_i = \text{TTS}_{\phi}(s_i | V_c, I_i)$$ Uwezo wa mfumo wa kutofanya mafunzo ya awali unatokana na kutumia mifumo iliyofunzwa awali, isiyobadilika ($\text{LLM}_{\theta}$, Text2Image, Face2Voice, $\text{TTS}_{\phi}$) bila urekebishaji.

4. Matokeo ya Majaribio na Tathmini

Makala yanathibitisha MultiActor-Audiobook kupitia tathmini za kulinganisha dhidi ya bidhaa za sauti za kusoma za kibiashara na uchambuzi wa uondoaji.

4.1 Tathmini ya Kibinadamu

Watahini wa kibinadamu walitathmini sampuli za sauti za kusoma zilizoundwa kwa kigezo kama ufasaha wa hisia, uthabiti wa mzungumzaji, na asili ya jumla. MultiActor-Audiobook ilipata viwango vya ushindani au bora zaidi ikilinganishwa na huduma za sauti za kusoma za kibiashara zinazotumia TTS. Muhimu zaidi, ilishinda mifumo ya msingi iliyotumia sauti moja au msukumo rahisi wa kanuni, hasa katika mazungumzo yanayohusisha wahusika wengi wenye sifa tofauti.

4.2 Tathmini ya MLLM

Ili kukamilisha tathmini ya kibinadamu, waandishi walitumia Mifumo Mikubwa ya Lugha ya Anuwai (MLLM) kama GPT-4V. MLLM ilipewa sauti na maelezo ya eneo/mhusika na kuulizwa kuhukumu ikiwa utoaji wa sauti ulilingana na muktadha. Kipimo hiki cha lengo kilithibitisha uwezo wa mfumo wa kutoa msukumo unaofaa kwa muktadha kwa ufanisi sawa na mifumo ya kibiashara, ikithibitisha ufanisi wa moduli ya LSI.

4.3 Uchambuzi wa Uondoaji

Uchambuzi wa uondoaji ulionyesha mchango wa kila moduli kuu:

  • Bila MSP (Kutumia sauti ya jumla): Uthabiti wa mzungumzaji na upekee wa mhusika ulipungua kwa kiasi kikubwa, na kusababisha mazungumzo yanayochanganya.
  • Bila LSI (Kutumia TTS isiyo na upendeleo): Sauti ikawa monotoniki na isiyo na hisia, na kupata alama duni kwenye vipimo vya ufasaha.
  • Mfumo Kamili (MSP + LSI): Ulipata alama za juu zaidi katika vipimo vyote vya tathmini, na kuthibitisha umuhimu wa ushirikiano wa vipengele vyote viwili.
Matokeo haya yanathibitisha kwa nguvu muundo uliopendekezwa wa michakato miwili.

5. Mfumo wa Uchambuzi na Uchunguzi wa Kesi

Utumiaji wa Mfumo: Ili kuchambua riwaya kwa utengenezaji, mfumo hufuata mfumo thabiti. Uchunguzi wa Kesi - Dondoo la Riwaya ya Kubuni:

  1. Ingizo: "Mchawi mzee, ndevu yake ndefu na kijivu, alisema onyo kwa sauti ndogo. 'Jihadharini na vivuli,' alisema, sauti yake kama mawe yanayosuguliwa."
  2. Utekelezaji wa MSP: LLM hutambua "mchawi mzee" kama mzungumzaji. Huchimba sifa: {umri: mzee, jukumu: mchawi, maelezo: ndevu ndefu na kijivu, ubora wa sauti: kama mawe yanayosuguliwa}. Text2Image hutoa uso wa mzee. Face2Voice hutoa sampuli ya sauti nzito, yenye changarawe.
  3. Utekelezaji wa LSI kwa "Jihadharini na vivuli": LLM hupokea sentensi, muktadha (onyo), na sifa za mchawi. Hutoa maagizo: {hisi: wasiwasi mkubwa, toni: la kutisha na la chini, sauti: ya chini na thabiti, mwendo: polepole}.
  4. Matokeo: TTS inayoweza kuagizwa huchanganya "Jihadharini na vivuli" kwa kutumia sauti ya mchawi yenye changarawe, ikitolewa kwa njia ya polepole, ya kutisha, na ya sauti ya chini.
Mfumo huu unaonyesha jinsi ishara za maandishi zinabadilishwa kuwa sauti yenye ufasaha na anuwai bila kuingiliwa kwa mikono.

6. Uchambuzi Muhimu na Ufahamu wa Mtaalamu

Ufahamu Mkuu: MultiActor-Audiobook sio kifuniko kingine cha TTS; ni mabadiliko ya kimkakati kutoka kwa sauti inayozalishwa inayozingatia data hadi inayozingatia maagizo. Mafanikio yake ya kweli ni kuchukua uundaji wa sauti za kusoma kama shida ya upatikanaji wa muktadha wa anuwai na kufuata maagizo, na kuepuka gharama kubwa za uigaji wa sauti wa kitamaduni na uundaji wa msukumo. Hii inalingana na mabadiliko makubwa ya tasnia, kama inavyoonyeshwa na mifano kama DALL-E na Stable Diffusion katika uoni, ambapo muundo kutoka kwa sehemu zilizofunzwa awali hubadilisha mafunzo ya mfumo mmoja.

Mfuatano wa Mantiki: Mantiki ni laini kwa ustadi lakini inategemea dhana dhaifu. MSP inadhania kuwa mfumo wa Uso-hadi-Sauti unaweza kuunganisha uso wowote ulioundwa na sauti inayofaa, thabiti—hatua ya imani kutokana na changamoto zinazojulikana katika ujifunzaji wa uwakilishi wa anuwai (kama inavyoonekana katika tofauti kati ya nafasi za siri za picha na sauti kama inavyojadiliwa katika kazi kama AudioCLIP). LSI inadhania kuwa uelewa wa maandishi wa LLM wa "toni la huzuni" unabadilishwa kikamilifu kuwa vigezo vya sauti katika TTS inayofuata—pengo la kisemantiki-sauti ambalo bado ni changamoto ya msingi, kama ilivyoelezewa katika fasihi ya usindikaji wa usemi.

Nguvu na Kasoro: Nguvu yake ya kiuchumi na ya uendeshaji haikatazwi: haifanyi mafunzo ya awali, hakuna shida ya leseni kwa sauti za watendaji, na inaweza kujaribiwa haraka. Kasoro iko kwenye kiwango cha juu cha ubora. Mfumo ni mzuri kama sehemu yake dhaifu zaidi ya kukodishwa—mfumo wa Face2Voice na TTS inayoweza kuagizwa. Itapambana na ubapa na uthabiti wa muda mrefu. Je, inaweza kushughulikia sauti ya mhusika inavyovunjika kwa hisia, ubapa unaohitaji udhibiti wa chini ya sauti? Haiwezekani. Kutegemea sifa ya kuonekana kwa sauti pia ni kizidishaji cha upendeleo, suala lililorekodiwa vizuri katika maadili ya AI inayozalisha.

Ufahamu Unaoweza Kutekelezwa: Kwa wawekezaji na wasimamizi wa bidhaa, hii ni MVP yenye mvuto kwa soko maalum: watengenezaji wa michezo ya kujitegemea, ubadilishaji wa maudhui haraka, burudani ya elimu iliyobinafsishwa. Hata hivyo, kwa uchapishaji wa kawaida unaotafuta ubora unaoshindana na wa kibinadamu, ni kikamilisho, sio badala. Njia ya haraka inapaswa kuzingatia mbinu mchanganyiko: kutumia mfumo huu kutoa sauti ya kusoma ya "rasimu ya kwanza" iliyojaa ambayo mkurugenzi wa kibinadamu anaweza kuhariri na kuboresha kwa ufanisi, na kupunguza wakati wa utengenezaji kwa 70-80% badala ya kukusudia otomatiki 100%. Kipaumbele cha utafiti lazima kifunge pengo la kisemantiki-sauti kupitia nafasi bora za kuunganisha, labda kutokana na mbinu za usawa zinazotumiwa katika mifumo ya anuwai kama Flamingo au CM3.

7. Matumizi ya Baadaye na Mwelekeo

Mfano ulioletwa na MultiActor-Audiobook unafungua njia kadhaa:

  • Vyombo vya Habari Vinavyoshirikiana na Michezo: Uundaji wa mazungumzo ya wahusika katika michezo au hadithi zinazoshirikiana kulingana na chaguzi za mchezaji na hali zinazobadilika za wahusika kwa wakati halisi.
  • Ufikiaji na Elimu: Kubadilisha vitabu vya kiada, hati, au hadithi za watoto zilizobinafsishwa kuwa masimulizi yenye mvuto, yenye sauti nyingi mara moja, na kuongeza ufikiaji kwa watumiaji wenye ulemavu wa kuona au kuunda nyenzo za kujifunza zinazoshirikisha.
  • Ubadilishaji wa Maudhui: Ubadilishaji wa sauti na sauti ya ziada kwa maudhui ya video kwa kutoa sauti zinazofaa kwa kitamaduni na mhusika katika lugha lengwa, ingawa hii inahitaji nyuma za TTS zenye lugha nyingi za hali ya juu.
  • Mwelekeo wa Utafiti wa Baadaye:
    1. Uboreshaji wa Uundaji wa Sifa: Kujumuisha namna zaidi (k.m., vitendo vya mhusika, sauti zilizoelezewa) zaidi ya uso na maelezo ya maandishi ili kuongoza sauti na msukumo.
    2. Uthabiti wa Muktadha Mrefu: Kuboresha LSI ili kudumisha uthabiti wa safu pana ya masimulizi (k.m., mshuko wa hisia wa mhusika hatua kwa hatua) katika kitabu kizima, sio sentensi za ndani pekee.
    3. Utabiri wa Vigezo vya Sauti Moja kwa Moja: Kuendelea zaidi ya maagizo ya lugha asilia na kufanya LLM itoe lengo la moja kwa moja, la kufasiriwa la vipengele vya sauti (muundo wa F0, nishati) kwa udhibiti mzuri zaidi, sawa na mbinu katika VALL-E lakini katika mazingira yasiyo na mafunzo ya awali.
    4. Uundaji wa Sauti wa Kiadili: Kukuza mifumo ya kukagua na kupunguza upendeleo katika vipengele vya Face2Voice na uundaji wa sifa ili kuzuia ubaguzi.
Lengo la mwisho ni injini ya uundaji ya "hadithi-hadi-wimbo" iliyojumuishwa, inayoweza kudhibitiwa, na ya kiadili.

8. Marejeo

  1. Tan, X., et al. (2021). NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality. arXiv preprint arXiv:2105.04421.
  2. Wang, C., et al. (2023). Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers. arXiv preprint arXiv:2301.02111.
  3. Zhang, Y., et al. (2022). META-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech. IEEE/ACM Transactions on Audio, Speech, and Language Processing.
  4. Radford, A., et al. (2023). Robust Speech Recognition via Large-Scale Weak Supervision. Proceedings of ICML.
  5. Kim, J., et al. (2021). VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Proceedings of ICML.
  6. OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.
  7. Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the CVPR.
  8. Alayrac, J., et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. Advances in Neural Information Processing Systems.
  9. Park, K., Joo, S., & Jung, K. (2024). MultiActor-Audiobook: Zero-Shot Audiobook Generation with Faces and Voices of Multiple Speakers. Manuscript submitted for publication.
  10. Guzhov, A., et al. (2022). AudioCLIP: Extending CLIP to Image, Text and Audio. Proceedings of the ICASSP.