Выбрать язык

Классификация ненадежных нарраторов с помощью больших языковых моделей

Исследование вычислительной идентификации ненадежных нарраторов с использованием LLM, включающее набор данных TUN A и классификацию интра-, интер-наррационной и интертекстуальной ненадежности.
audio-novel.com | PDF Size: 2.1 MB
Оценка: 4.5/5
Ваша оценка
Вы уже оценили этот документ
Обложка PDF-документа - Классификация ненадежных нарраторов с помощью больших языковых моделей

Содержание

1 Введение

Ненадежные нарраторы представляют серьезную проблему в вычислительной лингвистике, особенно учитывая распространение повествований от первого лица на цифровых платформах. Данное исследование объединяет литературную теорию из нарратологии с современными методами обработки естественного языка для разработки автоматических систем классификации надежности нарратора. Работа восполняет критические пробелы в оценке доверия к личным повествованиям в различных областях, включая социальные сети, отзывы и профессиональные коммуникации.

2 Методология

2.1 Набор данных TUN A

Набор данных TUN A (Taxonomy of Unreliable Narrators Annotation) включает экспертно размеченные повествования из различных областей: посты в блогах, обсуждения на Reddit, отзывы об отелях и литературные произведения. Набор данных содержит 1200 размеченных примеров с многомерными метками надежности.

2.2 Классификационная система ненадежности

Определены три различных типа ненадежности: Интранаррационная (внутренние противоречия и речевые особенности), Интернаррационная (противоречия между основным и второстепенными нарраторами) и Интертекстуальная (конфликты с внешними фактическими знаниями).

2.3 Экспериментальная установка

В экспериментах использовались как открытые (Llama-2, Mistral), так и проприетарные (GPT-4, Claude-2) LLM в конфигурациях few-shot, тонкой настройки и обучения по учебному плану. Подход обучения по учебному плану постепенно знакомил модели со все более сложными паттернами надежности.

3 Техническая реализация

3.1 Математическая основа

Задача классификации надежности формализована как: $P(R|T) = \frac{P(T|R)P(R)}{P(T)}$, где $R$ представляет метки надежности, а $T$ представляет текстовые признаки. Извлечение признаков использует механизмы внимания трансформеров: $Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$

3.2 Архитектуры моделей

Архитектуры с двумя энкодерами обрабатывают содержание повествования и контекстуальные сигналы отдельно перед слоями слияния. Модели включают многозадачные цели обучения для совместной оптимизации по трем типам ненадежности.

4 Результаты и анализ

4.1 Метрики производительности

Лучшая производительность достигла показателей F1 0.68 для интранаррационной, 0.59 для интернаррационной и 0.52 для интертекстуальной классификации. Результаты демонстрируют прогрессирующую сложность across типов ненадежности, причем интертекстуальная оказалась наиболее сложной из-за требуемых внешних знаний.

4.2 Сравнительный анализ

Тонко настроенные открытые модели превзошли проприетарные модели few-shot в задачах интранаррационной классификации, в то время как проприетарные модели сохранили преимущества в интертекстуальной классификации, требующей более широких знаний о мире.

5 Структура кейс-стади

Сценарий: Анализ отзыва об отеле
Текст: "Номер был абсолютно идеальным, хотя, полагаю, кровать могла бы быть и удобнее, а вид был не совсем таким, как я ожидал. Персонал был helpful, я думаю."
Анализ: Данный пример демонстрирует интранаррационную ненадежность через уклончивые фразы ("полагаю", "я думаю") и противоречивые оценки, снижая доверие к нарратору, несмотря на общий позитивный тон.

6 Будущие применения

Потенциальные применения включают автоматическую оценку достоверности для модерации онлайн-контента, образовательные инструменты для улучшения письма, судебную лингвистику для анализа юридических показаний и усовершенствованные системы диалогового ИИ, способные обнаруживать неуверенность или обман пользователя.

7 Критический анализ

Ключевой вывод: Данное исследование представляет собой смелую, но в корне ошибочную попытку квантификации литературной теории с помощью вычислительных методов. Амбиции авторов объединить нарратологию и NLP достойны похвалы, но их подход страдает от упрощения сложных психологических феноменов.

Логическая последовательность: Статья следует традиционной структуре ML-исследования — определение проблемы, создание набора данных, экспериментирование, результаты. Однако логический скачок от литературной теории к вычислительным меткам lacks rigorous validation. Подобно ранним попыткам анализа тональности, сводившим сложные эмоции к бинарным положительным/отрицательным значениям, эта работа рискует создать прокрустово ложе, где нюансированные нарративные приемы насильно втискиваются в жесткие категории.

Сильные стороны и недостатки: Набор данных TUN A — жемчужина статьи — экспертно размеченный, многодоменный и общедоступный. Это восполняет критический пробел в ресурсах для нарративного анализа. Однако производительность классификации (F1 0.52-0.68) reveals fundamental limitations. Модели особенно struggle с интертекстуальной ненадежностью, что перекликается с проблемами, отмеченными в статье CycleGAN, где адаптация домена работает лучше для поверхностных, чем для семантических признаков. Подход обучения по учебному плану показывает promise, но кажется недоработанным по сравнению с прогрессивными техниками обучения, используемыми в vision-language моделях, таких как CLIP.

Практические рекомендации: Будущие работы должны включать психолингвистические признаки beyond текстовых паттернов — просодические сигналы для устных повествований, анализ ритма письма и межкультурные нарративные конвенции. Области следует обратиться к когнитивно-психологическим framework, таким как Theory of Mind, для моделирования интенциональности нарратора. Наиболее критично, исследователи должны учитывать этические последствия: автоматическая оценка надежности может стать опасным инструментом для дискредитации маргинализированных голосов, если разрабатывается без тщательного учета культурных и контекстуальных факторов.

8 Ссылки

  1. Booth, W.C. (1961). The Rhetoric of Fiction.
  2. Nünning, A. (2015). Handbook of Narratology.
  3. Hansen, P.K. (2007). Reconsidering the Unreliable Narrator.
  4. Zhu et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks.
  5. Radford et al. (2021). Learning Transferable Visual Models From Natural Language Supervision.