1. Giriş
Büyük Dil Modelleri (LLM'ler), kurgusal hikaye üretiminde artan uygulamalarla birlikte, hesaplamalı yaratıcılıkta yaygın araçlar haline gelmiştir. Ancak, kurgu yalnızca dilsel yeterlilikten fazlasını gerektirir—gerçeklikten farklı olan ancak içsel tutarlılığını koruyan, uyumlu bir hikaye dünyası yaratılmasını ve sürdürülmesini talep eder. Bu makale, mevcut LLM'lerin basit metin tamamlamanın ötesine geçerek gerçek anlatı inşası için gerekli "dünya görüşüne" veya içsel duruma sahip olup olmadığını araştırmaktadır.
Temel zorluk, gerçek bilgi erişimi ile kurgusal dünya inşası arasındaki ayrımda yatmaktadır. LLM'ler örüntü eşleme ve bilgi sentezinde üstün olsalar da, kurgu yazımının temel bir gereksinimi olan tutarlı alternatif gerçeklikleri sürdürmede zorlanmaktadırlar. Bu araştırma, dokuz LLM'yi tutarlılık metrikleri ve hikaye üretim görevleri üzerinden sistematik olarak değerlendirerek mevcut mimarilerdeki önemli sınırlamaları ortaya koymaktadır.
2. Araştırma Soruları ve Metodoloji
Çalışma, LLM'lerin kurgu üretimi için uygunluğunu değerlendirmek üzere yapılandırılmış bir değerlendirme çerçevesi kullanmakta ve iki kritik yeteneğe odaklanmaktadır.
2.1. Temel Araştırma Soruları
- Tutarlılık: LLM'ler bilgiyi farklı bağlamlarda tutarlı bir şekilde tanımlayabilir ve yeniden üretebilir mi?
- Sağlamlık: LLM'ler, kurgusal bilgiyi yeniden üretirken komut dili değişikliklerine karşı sağlam mıdır?
- Dünya Durumu Bakımı: LLM'ler, anlatı üretimi boyunca tutarlı bir kurgusal "durumu" sürdürebilir mi?
2.2. Model Seçimi ve Değerlendirme Çerçevesi
Araştırma, farklı boyutları, mimarileri ve eğitim paradigmalarını (hem kapalı hem de açık kaynak) kapsayan dokuz LLM'yi değerlendirmektedir. Değerlendirme protokolü şunları içerir:
- Dünya Görüşü Sorgulama: Kurgusal gerçek hatırlamada tutarlılığı araştırmak için tasarlanmış bir dizi hedefli komut.
- Hikaye Üretim Görevi: Belirli dünya inşa kısıtlamalarına dayalı olarak doğrudan kısa kurgu üretimi.
- Çapraz Model Karşılaştırması: Farklı mimariler arasında anlatı örüntülerinin ve tutarlılığın analizi.
Değerlendirme Kapsamı
Test Edilen Modeller: 9 LLM
Birincil Metrik: Dünya Görüşü Tutarlılık Puanı
İkincil Metrik: Anlatı Tekdüzelik Endeksi
3. Deneysel Sonuçlar ve Analiz
Deneysel bulgular, mevcut LLM'lerin kurgu üreticisi olarak işlev görme yeteneklerindeki temel sınırlamaları ortaya koymaktadır.
3.1. Dünya Görüşü Tutarlılık Değerlendirmesi
Değerlendirilen dokuz modelden yalnızca ikisi sorgulama boyunca tutarlı dünya görüşü bakımı sergilemiştir. Geri kalan yedisi, etkileşimin başında belirlenen kurgusal gerçekleri yeniden üretmeleri veya detaylandırmaları istendiğinde önemli öz-çelişkiler göstermiştir. Bu, çoğu LLM'nin kurgusal dünya parametrelerini takip etmek için kalıcı bir içsel durum mekanizmasından yoksun olduğunu göstermektedir.
Temel Bulgu: Modellerin çoğunluğu, belirlenmiş kurgusal kısıtlamaları sürdürmek yerine istatistiksel olarak olası yanıtlara varsayılan olarak dönmektedir; bu da bir sonraki token tahmini ile anlatı durumu yönetimi arasında temel bir uyumsuzluğa işaret etmektedir.
3.2. Hikaye Üretim Kalitesi Analizi
Dört temsili model tarafından üretilen hikayelerin analizi, mimariler arasında "çarpıcı şekilde tekdüze bir anlatı örüntüsü" ortaya çıkarmıştır. Farklı eğitim verileri ve parametre sayılarına rağmen, üretilen hikayeler benzer olay örgüsü yapıları, karakter arketipleri ve çözüm örüntüleri üzerinde birleşmiştir.
Çıkarım: Bu tekdüzelik, LLM'lerin gerçekten bir içsel dünya modeline dayalı kurgu üretmediğini, bunun yerine öğrenilmiş anlatı şablonlarını yeniden birleştirdiğini göstermektedir. Ayırt edici bir "yazarlık sesi" veya tutarlı dünya inşasının eksikliği, gerçek kurgu için gerekli olan durum bakımının yokluğuna işaret etmektedir.
Şekil 1: Modeller Arasında Anlatı Tekdüzeliği
Analiz, üretilen hikayelerin %78'inin, başlangıçtaki dünya inşa komutundan bağımsız olarak, üç temel olay örgüsü yapısından birini takip ettiğini ortaya çıkarmıştır. Karakter gelişimi de benzer bir yakınsama göstermiş, farklı kurgusal ortamlardaki kahramanların %85'i aynı motivasyon örüntülerini sergilemiştir.
4. Teknik Çerçeve ve Matematiksel Formülasyon
Temel zorluk bir durum bakımı problemi olarak formalize edilebilir. $W_t$, t zamanındaki dünya durumunu, tüm belirlenmiş kurgusal gerçekleri, karakter niteliklerini ve anlatı kısıtlamalarını içerecek şekilde temsil etsin. Kurgu üreten bir LLM için şunu bekleriz:
$P(yanıt_{t+1} | komut, W_t) \neq P(yanıt_{t+1} | komut)$
Yani, modelin yanıtı hem anlık komuta hem de birikmiş dünya durumu $W_t$'ye bağlı olmalıdır. Ancak, mevcut transformer tabanlı mimariler öncelikle şunu optimize eder:
$\max \sum_{i=1}^{n} \log P(w_i | w_{
Burada $\theta$ model parametrelerini, $w_i$ ise token'ları temsil eder. Bu bir sonraki token tahmini hedefi, anlık bağlam penceresinin ötesinde $W_t$'nin bakımını açıkça teşvik etmez.
Araştırma, başarılı kurgu üretiminin, sinirsel-sembolik sistemler veya harici bellek mimarilerindekilere benzer mekanizmalar gerektirdiğini öne sürmektedir; bu sistemlerde dünya durumu $W_t$ açıkça sürdürülür ve güncellenir, tıpkı Farklılaştırılabilir Sinirsel Bilgisayar (Graves ve diğerleri, 2016) gibi çalışmalarda tartışıldığı gibi.
5. Vaka Çalışması: Dünya Durumu Takip Başarısızlığı
Senaryo: Bir modelden "yerçekiminin yanlara doğru çalıştığı bir dünya" hakkında bir hikaye üretmesi istenir. Bu öncül belirlendikten sonra, bu dünyadaki günlük yaşam, mimari ve ulaşım hakkında ardışık komutlar sorulur.
Gözlem: Çoğu model, 2-3 yanıt turu içinde hızla standart yerçekimi varsayımlarına geri döner ve belirlenen öncülle çelişir. Örneğin, "uçurum yüzlerine inşa edilmiş evler" tanımlandıktan sonra, bir model daha sonra yanlara doğru yerçekimi olan bir dünyadaki çelişkiyi fark etmeden "bir binadan düşmekten" bahsedebilir.
Analiz Çerçevesi: Bu, modelin içsel temsili $W_t$'nin kurgusal kısıtlamayı $C_{yerçekimi} = \text{yanlara}$ düzgün bir şekilde güncellemediği veya sürdürmediği bir durum takip başarısızlığı olarak modellenebilir. Yanıtlar üzerindeki olasılık dağılımı, $C_{yerçekimi}$ üzerinde koşullu kalmak yerine, yavaş yavaş eğitim dağılımı $P_{train}(\text{yerçekimi kavramları})$'na geri kayar.
Çıkarım: Kurgusal kısıtlama bakımı için açık mekanizmalar olmadan, LLM'ler dilsel yeteneklerinden bağımsız olarak güvenilir kurgu üreticileri olarak hizmet edemezler.
6. Gelecekteki Uygulamalar ve Araştırma Yönleri
Bulgular, LLM'lerin kurgu üretim yeteneklerini geliştirmek için birkaç umut verici araştırma yönüne işaret etmektedir:
- Açık Dünya Durumu Modülleri: Anlatı durumu takibini dil üretiminden ayıran, potansiyel olarak harici bellek veya sembolik temsiller kullanan mimariler.
- Tutarlılık Odaklı Eğitim: Genişletilmiş bağlamlar boyunca kurgusal kısıtlamaların sürdürülmesini açıkça ödüllendiren ince ayar hedefleri.
- İnsan-Döngü Sistemleri: İnsanların dünya durumunu yönettiği, LLM'lerin ise dilsel gerçekleştirmeyi ele aldığı, Yuan ve diğerleri (2022) tarafından araştırılan ortak yaratıcı sistemlere benzer işbirlikçi arayüzler.
- Özelleştirilmiş Kurgu Modelleri: Dünya inşa unsurlarının ve anlatı yaylarının açıkça etiketlendiği, titizlikle seçilmiş kurgu derlemeleri üzerinde alana özgü eğitim.
- Değerlendirme Metrikleri: Geleneksel dil modelleme metriklerinin ötesine geçerek anlatı tutarlılığını ve dünya-durumu bakımını değerlendirmek için standartlaştırılmış kıyaslama testlerinin geliştirilmesi.
Bu yaklaşımlar, mevcut LLM yetenekleri ile gerçek kurgu üretiminin gereklilikleri arasındaki açığı kapatabilir ve potansiyel olarak yeni hesaplamalı yaratıcılık ve etkileşimli hikaye anlatımı biçimlerini mümkün kılabilir.
7. Kaynaklar
- Graves, A., ve diğerleri. (2016). Hybrid computing using a neural network with dynamic external memory. Nature, 538(7626), 471-476.
- Patel, A., ve diğerleri. (2024). Large Language Models for Interactive Storytelling: Opportunities and Challenges. Proceedings of the AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment.
- Riedl, M. O., & Young, R. M. (2003). Character-focused narrative generation for storytelling in games. Proceedings of the AAAI Spring Symposium on Artificial Intelligence and Interactive Entertainment.
- Tang, J., Loakman, T., & Lin, C. (2023). Towards coherent story generation with large language models. arXiv preprint arXiv:2302.07434.
- Yuan, A., ve diğerleri. (2022). Wordcraft: A Human-AI Collaborative Editor for Story Writing. Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems.
- Yang, L., ve diğerleri. (2023). Improving coherence in long-form story generation with large language models. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics.
8. Analist Perspektifi: Kurgu Üretim Açığı
Temel İçgörü
Makale, LLM hype döngüsündeki kritik ancak genellikle gözden kaçan bir kusuru ortaya çıkarıyor: bu modeller temelde tepkisel örüntü eşleştiricilerdir, proaktif dünya inşacıları değil. Sektör, modellerin temel kurgusal tutarlılığı bile sürdüremediği bir dönemde "yaratıcı YZ" kurgusunu satıyor. Bu bir ölçekleme sorunu değil—bir mimari sorun. Araştırmanın gösterdiği gibi, en büyük modeller bile insan yazarların temel zanaat olarak gördüğü şeyde başarısız oluyor: hikaye dünyalarını düzgün tutmak.
Mantıksal Akış
Çalışmanın metodolojisi, temel sorunu ustaca izole ediyor. Dilsel kaliteyi ölçmek yerine basit kurgusal gerçekler üzerinde tutarlılığı test ederek, LLM düzyazısının yüzeysel etkileyiciliğini atlayıp altındaki yapısal boşluğu ortaya çıkarıyorlar. Dünya görüşü sorgulamasından hikaye üretimine ilerleyiş, tutarsızlığın sadece küçük bir hata olmadığını—doğrudan anlatı çıktısını bozduğunu gösteriyor. Modeller arasındaki tekdüze hikayeler, bireysel model eksiklikleriyle değil, sistemsel bir sınırlamayla karşı karşıya olduğumuzu doğruluyor.
Güçlü ve Zayıf Yönler
Güçlü Yön: Araştırma, abartılmış bir uygulama alanına gerekli bir gerçeklik kontrolü sunuyor. Yüzeysel özellikler yerine durum bakımına odaklanarak, kurgu üretimi için gerçek darboğazı tanımlıyor. Dokuz model arasındaki karşılaştırma, bunun evrensel bir LLM sınırlaması olduğuna dair ikna edici kanıt sağlıyor.
Zayıf Yön: Makale, ticari çıkarımları yeterince vurgulamıyor. Eğer LLM'ler kurgusal tutarlılığı sürdüremezse, profesyonel yazım araçları için değerleri ciddi şekilde sınırlıdır. Bu sadece akademik bir endişe değil—şu anda "yaratıcı yazma asistanları" pazarlayan her büyük YZ şirketinin ürün yol haritalarını etkiler. Araştırma ayrıca, durum takibinin onlarca yıldır sembolik yaklaşımlarla çözülmüş bir problem olduğu oyun YZ'si ve etkileşimli anlatıdaki ilgili çalışmalara yeterince bağlantı kurmuyor.
Harekete Geçirilebilir İçgörüler
İlk olarak, YZ şirketleri durum bakımı sorununu çözene kadar LLM'leri kurgu yazarı olarak pazarlamayı bırakmalıdır. İkinci olarak, araştırmacılar saf transformer mimarilerinin ötesine bakmalıdır—DeepMind'ın Farklılaştırılabilir Sinirsel Bilgisayar'ında öncülük edilenler gibi hibrit nöro-sembolik yaklaşımlar, kalıcı durum yönetimi için kanıtlanmış yollar sunar. Üçüncü olarak, burada geliştirilen değerlendirme çerçevesi, herhangi bir "yaratıcı YZ" kıyaslama testi için standart haline gelmelidir. Son olarak, dünya-durumu yönetimini düzyazı üretiminden açıkça ayıran arayüzler inşa etmekte, sınırlamayı insan-YZ işbirliği için bir özelliğe dönüştürmekte bir ürün fırsatı vardır.
Makalenin en değerli katkısı, örtük uyarısı olabilir: Onları gerçek anlatı zekasına ulaşmaktan alıkoyan temel mimari kısıtlamaları ele almadan giderek daha sofistike dil modelleri inşa ediyoruz. Durum problemini çözene kadar, LLM tarafından üretilen kurgu, şu anda olduğu şey olarak kalacak—güzelce yazılmış saçmalık.