评估语言模型在虚构内容生成中的世界观构建能力

1. 引言

大语言模型（LLMs）已成为计算创意领域的普遍工具，在虚构故事生成中的应用日益增多。然而，虚构创作不仅需要语言能力，更要求创造并维持一个与现实不同、但内部逻辑自洽的故事世界。本文旨在探究当前的大语言模型是否具备生成引人入胜的虚构内容所必需的“世界观”或内部状态，从而超越简单的文本补全，实现真正的叙事构建。

根本挑战在于事实知识检索与虚构世界构建之间的区别。虽然大语言模型擅长模式匹配和信息综合，但在维持一致的替代现实方面存在困难——而这正是虚构写作的核心要求。本研究通过一致性指标和故事生成任务，系统性地评估了九个大语言模型，揭示了当前架构的重大局限性。

2. 研究问题与方法论

本研究采用结构化评估框架来评估大语言模型在虚构内容生成方面的适用性，重点关注两项关键能力。

2.1. 核心研究问题

一致性：大语言模型能否在不同语境中一致地识别和复现信息？
鲁棒性：在复现虚构信息时，大语言模型对提示语言的改变是否具有鲁棒性？
世界状态维持：大语言模型能否在整个叙事生成过程中维持一个连贯的虚构“状态”？

2.2. 模型选择与评估框架

本研究评估了九个大语言模型，涵盖不同规模、架构和训练范式（包括闭源和开源）。评估方案包括：

世界观质询：一系列旨在探究虚构事实回忆一致性的针对性提示。
故事生成任务：基于特定世界构建约束直接生成短篇虚构故事。
跨模型比较：分析不同架构间的叙事模式和连贯性。

评估范围

测试模型数量： 9 个大语言模型

主要指标： 世界观一致性得分

次要指标： 叙事一致性指数

3. 实验结果与分析

实验结果揭示了当前大语言模型作为虚构内容生成器的基本能力局限。

3.1. 世界观一致性评估

在评估的九个模型中，只有两个在质询过程中表现出了一致的世界观维持能力。其余七个模型在被要求复现或阐述先前交互中已确立的虚构事实时，表现出显著的自相矛盾。这表明大多数大语言模型缺乏用于追踪虚构世界参数的持久性内部状态机制。

关键发现： 大多数模型倾向于给出统计上可能的回答，而非维持已确立的虚构约束，这表明“下一个词预测”与“叙事状态管理”之间存在根本性的不匹配。

3.2. 故事生成质量分析

对四个代表性模型生成的故事进行分析发现，不同架构间存在“惊人的叙事模式一致性”。尽管训练数据和参数量不同，生成的故事在情节结构、人物原型和结局模式上都趋于相似。

启示： 这种一致性表明，大语言模型并非基于内部世界模型真正生成虚构内容，而是在重组习得的叙事模板。缺乏独特的“作者声音”或一致的世界构建，表明其缺少真正虚构创作所必需的状态维持能力。

图1：跨模型叙事一致性

分析显示，无论初始的世界构建提示如何，78%的生成故事都遵循三种基本情节结构之一。角色发展也表现出类似的趋同性，在不同虚构设定中，85%的主角展现出相同的动机模式。

4. 技术框架与数学形式化

核心挑战可以形式化为一个状态维持问题。令 $W_t$ 表示时间 $t$ 的世界状态，包含所有已确立的虚构事实、角色属性和叙事约束。对于一个生成虚构内容的大语言模型，我们期望：

$P(response_{t+1} | prompt, W_t) \neq P(response_{t+1} | prompt)$

即，模型的响应应同时取决于即时提示和累积的世界状态 $W_t$。然而，当前基于Transformer的架构主要优化的是：

$\max \sum_{i=1}^{n} \log P(w_i | w_{

其中 $\theta$ 代表模型参数，$w_i$ 是词元。这种下一个词预测目标并未明确鼓励在即时上下文窗口之外维持 $W_t$。

研究表明，成功的虚构内容生成需要类似于神经符号系统或外部记忆架构的机制，其中世界状态 $W_t$ 被显式地维持和更新，正如可微分神经计算机（Graves等人，2016）等工作中所讨论的那样。

5. 案例研究：世界状态追踪失败

场景： 提示一个模型生成一个关于“重力横向作用的世界”的故事。在确立此前提后，后续提示询问该世界中日常生活、建筑和交通的情况。

观察： 大多数模型在2-3轮响应内迅速回归到标准重力假设，与已确立的前提相矛盾。例如，在描述了“建在悬崖面上的房屋”后，模型稍后可能会提到“从建筑物上坠落”，而没有意识到这在重力横向作用的世界中是矛盾的。

分析框架： 这可以建模为状态追踪失败，即模型的内部表征 $W_t$ 未能正确更新或持久化虚构约束 $C_{gravity} = \text{sideways}$。响应上的概率分布逐渐漂移回训练分布 $P_{train}(\text{重力概念})$，而不是保持在 $C_{gravity}$ 的条件下。

启示： 如果没有明确的虚构约束维持机制，无论其语言能力如何，大语言模型都无法成为可靠的虚构内容生成器。

6. 未来应用与研究方向

研究结果指出了几个有前景的研究方向，以改进大语言模型的虚构内容生成能力：

显式世界状态模块： 将叙事状态追踪与语言生成分离的架构，可能使用外部记忆或符号表征。
聚焦一致性的训练： 微调目标，明确奖励在扩展上下文中维持虚构约束。
人在回路系统： 协作界面，由人类管理世界状态，而大语言模型处理语言实现，类似于Yuan等人（2022）探索的协同创意系统。
专用虚构模型： 在精选的虚构语料库上进行领域特定训练，并明确标注世界构建元素和叙事弧线。
评估指标： 开发用于虚构一致性的标准化基准，超越传统的语言建模指标，以评估叙事连贯性和世界状态维持。

这些方法可以弥合当前大语言模型能力与真正虚构内容生成需求之间的差距，可能催生新的计算创意形式和交互式叙事。

7. 参考文献

Graves, A., et al. (2016). Hybrid computing using a neural network with dynamic external memory. Nature, 538(7626), 471-476.
Patel, A., et al. (2024). Large Language Models for Interactive Storytelling: Opportunities and Challenges. Proceedings of the AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment.
Riedl, M. O., & Young, R. M. (2003). Character-focused narrative generation for storytelling in games. Proceedings of the AAAI Spring Symposium on Artificial Intelligence and Interactive Entertainment.
Tang, J., Loakman, T., & Lin, C. (2023). Towards coherent story generation with large language models. arXiv preprint arXiv:2302.07434.
Yuan, A., et al. (2022). Wordcraft: A Human-AI Collaborative Editor for Story Writing. Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems.
Yang, L., et al. (2023). Improving coherence in long-form story generation with large language models. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics.

8. 分析师视角：虚构内容生成的鸿沟

核心洞察

本文揭示了大语言模型炒作周期中一个关键但常被忽视的缺陷：这些模型本质上是反应式模式匹配器，而非主动式世界构建者。业界一直在兜售“创意AI”的虚构概念，而模型本身甚至无法维持基本的虚构一致性。这不是一个规模问题，而是一个架构问题。正如研究所示，即使是最大的模型，在人类作家视为基本技艺的方面——保持其故事世界的逻辑自洽——也失败了。

逻辑脉络

本研究的方法论巧妙地隔离了核心问题。通过测试简单虚构事实的一致性，而非衡量语言质量，他们绕过了大语言模型散文的表面印象，揭示了其下的结构空洞。从世界观质询到故事生成的进展表明，这种不一致性不仅仅是一个小缺陷，它直接损害了叙事输出。跨模型的统一故事证实，我们面对的是一个系统性的局限，而非个别模型的不足。

优势与不足

优势： 这项研究对一个被过度炒作的应用领域进行了必要的现实检验。通过关注状态维持而非表面特征，它确定了虚构内容生成的实际瓶颈。对九个模型的比较提供了令人信服的证据，表明这是一个普遍的大语言模型局限。

不足： 本文对商业影响阐述不足。如果大语言模型无法维持虚构一致性，它们对于专业写作工具的价值就严重受限。这不仅是一个学术问题，它影响着目前营销“创意写作助手”的每一家主要AI公司的产品路线图。研究也未充分联系游戏AI和交互式叙事领域的相关工作，在这些领域，使用符号方法进行状态追踪已是数十年来已解决的问题。

可操作的见解

首先，AI公司需要停止将大语言模型作为虚构作家进行营销，直到它们解决了状态维持问题。其次，研究人员应超越纯粹的Transformer架构——混合神经符号方法，如DeepMind的可微分神经计算机所开创的，为持久状态管理提供了经过验证的路径。第三，本文开发的评估框架应成为任何“创意AI”基准测试的标准。最后，存在一个产品机会，即构建明确将世界状态管理与散文生成分离的界面，将这一局限转化为人机协作的一个特性。

本文最有价值的贡献或许是其隐含的警告：我们正在构建日益复杂的语言模型，却没有解决阻碍其实现真正叙事智能的根本性架构约束。在我们解决状态问题之前，大语言模型生成的虚构内容将保持其现状——文笔优美但逻辑混乱的产物。