Kukagua Mtazamo wa Ulimwengu wa Mifano ya Lugha kwa Ajili ya Uundaji wa Hadithi za Kubuni

1. Utangulizi

Mifano Mikubwa ya Lugha (LLMs) imekuwa zana za kawaida katika ubunifu wa kompyuta, zikiwa na matumizi yanayoongezeka katika uundaji wa hadithi za kubuni. Hata hivyo, hadithi za kubuni zinahitaji zaidi ya ustadi wa lugha—zinahitaji kuundwa na kudumishwa kwa ulimwengu thabiti wa hadithi unaotofautiana na ukweli hali inadumisha mshikamano wa ndani. Karatasi hii inachunguza ikiwa LLMs za sasa zina "mtazamo wa ulimwengu" au hali ya ndani inayohitajika kuzalisha hadithi za kubuni zinazovutia, ikipita zaidi ya ukamilishaji wa maandishi rahisi hadi ujenzi wa kweli wa simulizi.

Changamoto ya msingi iko katika tofauti kati ya utafutaji wa ujuzi wa ukweli na ujenzi wa ulimwengu wa kubuni. Ingawa LLMs zinafanikiwa katika kuendana na muundo na usanisi wa habari, zinapambana na kudumisha ukweli mbadala thabiti—hitaji la msingi kwa uandishi wa hadithi za kubuni. Utafiti huu unatathmini kwa utaratibu LLMs tisa kwenye vipimo vya uthabiti na kazi za uundaji wa hadithi, ukifunua udhaifu mkubwa katika usanifu wa sasa.

2. Maswali ya Utafiti na Mbinu

Utafiti huu unatumia mfumo wa tathmini ulio na muundo ili kukagua ufaafu wa LLMs kwa uundaji wa hadithi za kubuni, ukizingatia uwezo mbili muhimu.

2.1. Maswali Muhimu ya Utafiti

Uthabiti: Je, LLMs zinaweza kutambua na kutoa habari kwa uthabiti katika miktadha tofauti?
Uimara: Je, LLMs zina uimara dhidi ya mabadiliko katika lugha ya haraka wakati wa kutoa habari za kubuni?
Udumishaji wa Hali ya Ulimwengu: Je, LLMs zinaweza kudumisha "hali" thabiti ya kubuni wakati wote wa uundaji wa simulizi?

2.2. Uchaguzi wa Mfano na Mfumo wa Tathmini

Utafiti unatathmini LLMs tisa zinazoshughulikia ukubwa tofauti, usanifu, na mifumo ya mafunzo (wazi na wazi chanzi). Itifaki ya tathmini inajumuisha:

Kuuliza kuhusu Mtazamo wa Ulimwengu: Mfululizo wa maswali yaliyolengwa yaliyoundwa kuchunguza uthabiti katika ukumbusho wa ukweli wa kubuni.
Kazi ya Uundaji wa Hadithi: Uzalishaji wa moja kwa moja wa hadithi fupi kulingana na vikwazo maalum vya ujenzi wa ulimwengu.
Ulinganisho wa Kuvuka Mfano: Uchambuzi wa mifumo ya simulizi na mshikamano kwenye usanifu tofauti.

Upeo wa Tathmini

Mifano Iliyojaribiwa: LLMs 9

Kipimo cha Msingi: Alama ya Uthabiti wa Mtazamo wa Ulimwengu

Kipimo cha Sekondari: Fahirisi ya Umoja wa Simulizi

3. Matokeo ya Majaribio na Uchambuzi

Matokeo ya majaribio yanafunua udhaifu wa msingi katika uwezo wa LLMs za sasa kufanya kazi kama vizalishi vya hadithi za kubuni.

3.1. Tathmini ya Uthabiti wa Mtazamo wa Ulimwengu

Mifano miwili tu kati ya tisa iliyotathminiwa ilionyesha udumishaji thabiti wa mtazamo wa ulimwengu katika maswali yote. Saba zilizobaki zilionyesha kupingana kwa kujikana wakati ziliulizwa kutoa au kufafanua ukweli wa kubuni uliowekwa mapema katika mazungumzo. Hii inaonyesha kwamba LLMs nyingi hazina utaratibu wa kudumu wa hali ya ndani wa kufuatilia vigezo vya ulimwengu wa kubuni.

Uvumbuzi Muhimu: Mifano mingi inarudi kwenye majibu yanayowezekana kwa takwimu badala ya kudumisha vikwazo vya kubuni vilivyowekwa, ikionyesha kutolingana kwa msingi kati ya utabiri wa tokeni inayofuata na usimamizi wa hali ya simulizi.

3.2. Uchambuzi wa Ubora wa Uundaji wa Hadithi

Uchambuzi wa hadithi zilizozalishwa na mifano minne ya kuwakilisha ulifunua "muundo wa kushangaza wa umoja wa simulizi" kwenye usanifu tofauti. Licha ya data tofauti ya mafunzo na idadi ya vigezo, hadithi zilizozalishwa zililenga kwenye miundo sawa ya njama, aina za wahusika, na mifumo ya utatuzi.

Maana: Umoja huu unaonyesha LLMs hazizalishi hadithi za kubuni kulingana na mfano wa ulimwengu wa ndani, bali zinachanganya tena viwango vya simulizi vilivyojifunza. Ukosefu wa "sauti ya kipekee ya mwandishi" au ujenzi thabiti wa ulimwengu unaonyesha ukosefu wa udumishaji wa hali unaohitajika kwa hadithi za kubuni za kweli.

Kielelezo 1: Umoja wa Simulizi Kuvuka Mifano

Uchambuzi ulifunua kwamba 78% ya hadithi zilizozalishwa zilifuata moja ya miundo mitatu ya msingi ya njama, bila kujali haraka ya awali ya ujenzi wa ulimwengu. Maendeleo ya wahusika yalionyesha mwelekeo sawa wa kukutana, na 85% ya wahusika wakuu wakionyesha mifumo sawa ya motisha katika mazingira tofauti ya kubuni.

4. Mfumo wa Kiufundi na Uundaji wa Kihisabati

Changamoto ya msingi inaweza kuwekwa rasmi kama shida ya udumishaji wa hali. Hebu $W_t$ iwakilishe hali ya ulimwengu kwa wakati $t$, ikijumuisha ukweli wote wa kubuni uliowekwa, sifa za wahusika, na vikwazo vya simulizi. Kwa LLM inayozalisha hadithi za kubuni, tungetarajia:

$P(majibu_{t+1} | haraka, W_t) \neq P(majibu_{t+1} | haraka)$

Yaani, majibu ya mfano yanapaswa kutegemea haraka ya papo hapo na hali ya ulimwengu iliyokusanyika $W_t$. Hata hivyo, usanifu wa msingi wa transformer unaolenga hasa:

$\max \sum_{i=1}^{n} \log P(w_i | w_{

ambapo $\theta$ inawakilisha vigezo vya mfano na $w_i$ ni tokeni. Lengo hili la utabiri wa tokeni inayofuata halihimizi wazi udumishaji wa $W_t$ zaidi ya dirisha la muktadha la papo hapo.

Utafiti unapendekeza kwamba uundaji wa mafanikio wa hadithi za kubuni unahitaji utaratibu sawa na ule ulio katika mifumo ya neva-ya ishara au usanifu wa kumbukumbu ya nje, ambapo hali ya ulimwengu $W_t$ inadumishwa na kusasishwa wazi, kama ilivyojadiliwa katika kazi kama Kompyuta ya Neva Inayoweza Kutofautishwa (Graves et al., 2016).

5. Uchunguzi wa Kesi: Kushindwa Kufuatilia Hali ya Ulimwengu

Hali: Mfano unaulizwa kuzalisha hadithi kuhusu "ulimwengu ambapo mvuto unafanya kazi kwa upande." Baada ya kuweka dhana hii, maswali yanayofuata yanauliza kuhusu maisha ya kila siku, usanifu, na usafiri katika ulimwengu huu.

Uchunguzi: Mifano mingi hurudi upya kwenye mawazo ya kawaida ya mvuto ndani ya zamu 2-3 za majibu, ikipingana na dhana iliyowekwa. Kwa mfano, baada ya kuelezea "nyumba zilizojengwa ndani ya uso wa mwamba," mfano unaweza baadaye kutaja "kuanguka kutoka kwenye jengo" bila kutambua kupingana katika ulimwengu wenye mvuto wa upande.

Mfumo wa Uchambuzi: Hii inaweza kuonyeshwa kama shida ya kufuatilia hali ambapo uwakilishi wa ndani wa mfano $W_t$ hausasishi au kudumisha kikwazo cha kubuni $C_{mvuto} = \text{upande}$ ipasavyo. Usambazaji wa uwezekano juu ya majibu huelekea kurudi polepole kwenye usambazaji wa mafunzo $P_{train}(\text{dhana za mvuto})$ badala ya kubaki kuwa na masharti kwenye $C_{mvuto}$.

Maana: Bila utaratibu wazi wa udumishaji wa kikwazo cha kubuni, LLMs haziwezi kutumika kama vizalishi vya kuaminika vya hadithi za kubuni, bila kujali uwezo wao wa lugha.

6. Matumizi ya Baadaye na Mwelekeo wa Utafiti

Matokeo yanaonyesha mwelekeo kadhaa wa utafiti unaotumainiwa wa kuboresha uwezo wa LLMs wa uundaji wa hadithi za kubuni:

Moduli Wazi za Hali ya Ulimwengu: Usanifu unaotenganisha ufuatiliaji wa hali ya simulizi na uundaji wa lugha, ukitumia kumbukumbu ya nje au uwakilishi wa ishara.
Mafunzo Yanayolenga Uthabiti: Malengo ya urekebishaji mwembamba ambayo yanathimini wazi udumishaji wa vikwazo vya kubuni kwenye miktadha iliyopanuliwa.
Mifumo ya Mtu-katika-Kitanzi: Kiolesura cha ushirikiano ambapo wanadamu wanasimamia hali ya ulimwengu wakati LLMs zinashughulikia utekelezaji wa lugha, sawa na mifumo ya ushirikiano iliyochunguzwa katika Yuan et al. (2022).
Mifano Maalum ya Hadithi za Kubuni: Mafunzo maalum ya kikoa kwenye mkusanyiko uliochaguliwa wa hadithi za kubuni zilizo na maelezo wazi ya vipengele vya ujenzi wa ulimwengu na safu za simulizi.
Vipimo vya Tathmini: Uundaji wa viwango vya kawaida vya uthabiti wa kubuni, ukipita zaidi ya vipimo vya kawaida vya mfano wa lugha ili kukagua mshikamano wa simulizi na udumishaji wa hali ya ulimwengu.

Mbinu hizi zinaweza kujaza pengo kati ya uwezo wa sasa wa LLMs na mahitaji ya uundaji wa kweli wa hadithi za kubuni, zikiwezesha aina mpya za ubunifu wa kompyuta na simulizi shirikishi.

7. Marejeo

Graves, A., et al. (2016). Hybrid computing using a neural network with dynamic external memory. Nature, 538(7626), 471-476.
Patel, A., et al. (2024). Large Language Models for Interactive Storytelling: Opportunities and Challenges. Proceedings of the AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment.
Riedl, M. O., & Young, R. M. (2003). Character-focused narrative generation for storytelling in games. Proceedings of the AAAI Spring Symposium on Artificial Intelligence and Interactive Entertainment.
Tang, J., Loakman, T., & Lin, C. (2023). Towards coherent story generation with large language models. arXiv preprint arXiv:2302.07434.
Yuan, A., et al. (2022). Wordcraft: A Human-AI Collaborative Editor for Story Writing. Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems.
Yang, L., et al. (2023). Improving coherence in long-form story generation with large language models. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics.

8. Mtazamo wa Mchambuzi: Pengo la Uundaji wa Hadithi za Kubuni

Uelewa wa Msingi

Karatasi hii inafunua kasoro muhimu lakini mara nyingi huachwa wazi katika mzunguko wa hypes ya LLM: mifano hii kimsingi ni wendanaji wa muundo wenye majibu, sio wajenzi wa ulimwengu wenye hatua za mbele. Sekta imekuwa ikiuza hadithi za kubuni za "AI ya ubunifu" hali mifano yenyewe haiwezi hata kudumisha uthabiti wa msingi wa kubuni. Hili si shida ya kuongeza ukubwa—ni shida ya usanifu. Kama utafiti unaonyesha, hata mifano mikubwa zaidi inashindwa katika kile wanachokiona waandishi wa kibinadamu kama ufundi wa msingi: kudumisha ulimwengu wao wa hadithi sawa.

Mtiririko wa Kimantiki

Mbinu ya utafiti hutenganisha kwa ujanja shida ya msingi. Kwa kujaribu uthabiti kwenye ukweli rahisi wa kubuni badala ya kupima ubora wa lugha, wanapita ushawishi wa uso wa usanifu wa LLM kufunua utupu wa kimuundo chini. Mwendo kutoka kwa kuuliza kuhusu mtazamo wa ulimwengu hadi uundaji wa hadithi unaonyesha kwamba kutolingana sio tu mdudu mdogo—kinaharibu moja kwa moja matokeo ya simulizi. Hadithi zilizo sawa kwenye mifano zinathibitisha tunashughulika na kikomo cha kimfumo, sio upungufu wa mfano mmoja mmoja.

Nguvu na Kasoro

Nguvu: Utafiti unatoa ukaguzi wa ukweli unaohitajika kwa kikoa lililopigwa sana. Kwa kulenga udumishaji wa hali badala ya vipengele vya uso, inatambua kizuizi halisi cha uundaji wa hadithi za kubuni. Ulinganisho kwenye mifano tisa unatoa ushahidi wa kulazimisha kwamba huu ni kikomo cha ulimwengu wa LLM.

Kasoro: Karatasi haichambui kikamilifu athari za kibiashara. Ikiwa LLMs haziwezi kudumisha uthabiti wa kubuni, thamani yao kwa zana za kitaaluma za uandishi ni ndogo sana. Hili si wasiwasi wa kitaaluma tu—linaathiri mpango wa bidhaa katika kila kampuni kubwa ya AI inayouzisha sasa "wasaidizi wa uandishi wa ubunifu." Utafiti pia haunganishi vya kutosha na kazi inayohusiana katika AI ya michezo na simulizi shirikishi, ambapo ufuatiliaji wa hali umekuwa shida iliyotatuliwa kwa miongo kadhaa kwa kutumia mbinu za ishara.

Uelewa Unaoweza Kutekelezwa

Kwanza, kampuni za AI zinahitaji kuacha kuzuia LLMs kama waandishi wa hadithi za kubuni hadi zitatue shida ya udumishaji wa hali. Pili, watafiti wanapaswa kuangalia zaidi ya usanifu safi wa transformer—mbinu mseto wa neva-ya ishara, kama zile zilizoanziwa katika Kompyuta ya Neva Inayoweza Kutofautishwa ya DeepMind, zinatoa njia zilizothibitishwa za usimamizi wa hali endelevu. Tatu, mfumo wa tathmini uliotengenezwa hapa unapaswa kuwa kiwango cha kiwango chochote cha "AI ya ubunifu." Mwisho, kuna fursa ya bidhaa katika kujenga kiolesura kinachotenganisha wazi usimamizi wa hali ya ulimwengu na uundaji wa usanifu, ukigeuza kikomo kuwa kipengele cha ushirikiano wa kibinadamu-AI.

Mchango wenye thamani zaidi wa karatasi unaweza kuwa onyo lake la dhahiri: tunajenga mifano ya lugha inayozidi kuwa tata bila kushughulikia vikwazo vya msingi vya usanifu vinavyozuia kufikia akili ya kweli ya simulizi. Hadi tutatue shida ya hali, hadithi za kubuni zilizozalishwa na LLM zitabaki kile kilicho sasa—upumbavu ulioandikwa kwa uzuri.