Sélectionner la langue

Classification des Narrateurs Non Fiables avec les Grands Modèles de Langage

Recherche sur l'identification computationnelle des narrateurs non fiables via les LLM, présentant le jeu de données TUN A et la classification de la non-fiabilité intra-narrationale, inter-narrationale et inter-textuelle.
audio-novel.com | PDF Size: 2.1 MB
Note: 4.5/5
Votre note
Vous avez déjà noté ce document
Couverture du document PDF - Classification des Narrateurs Non Fiables avec les Grands Modèles de Langage

Table des matières

1 Introduction

Les narrateurs non fiables représentent un défi majeur en linguistique computationnelle, particulièrement avec la prolifération des récits à la première personne sur les plateformes numériques. Cette recherche fait le pont entre la théorie littéraire issue de la narratologie et les techniques modernes de traitement du langage naturel pour développer des systèmes de classification automatisée de la fiabilité des narrateurs. Ce travail comble des lacunes critiques dans l'évaluation de la confiance pour les récits personnels dans divers domaines incluant les médias sociaux, les avis et les communications professionnelles.

2 Méthodologie

2.1 Jeu de données TUN A

Le jeu de données TUN A (Taxonomy of Unreliable Narrators Annotation) comprend des récits annotés par des experts provenant de multiples domaines : billets de blog, discussions Reddit, avis hôteliers et œuvres littéraires. Le jeu de données inclut 1 200 instances annotées avec des étiquettes de fiabilité multidimensionnelles.

2.2 Cadre de classification de la non-fiabilité

Trois types distincts de non-fiabilité sont définis : Intra-narrationale (incohérences internes et tics verbaux), Inter-narrationale (contradictions entre narrateurs principaux et secondaires) et Inter-textuelle (conflits avec des connaissances factuelles externes).

2.3 Configuration expérimentale

Les expériences ont employé des LLM à poids ouverts (Llama-2, Mistral) et propriétaires (GPT-4, Claude-2) dans des configurations few-shot, de fine-tuning et d'apprentissage curriculaire. L'approche d'apprentissage curriculaire a exposé progressivement les modèles à des schémas de fiabilité de complexité croissante.

3 Implémentation technique

3.1 Cadre mathématique

Le problème de classification de la fiabilité est formalisé comme suit : $P(R|T) = \frac{P(T|R)P(R)}{P(T)}$ où $R$ représente les étiquettes de fiabilité et $T$ les caractéristiques textuelles. L'extraction des caractéristiques utilise les mécanismes d'attention des transformeurs : $Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$

3.2 Architectures des modèles

Les architectures à double encodeur traitent séparément le contenu narratif et les indices contextuels avant les couches de fusion. Les modèles intègrent des objectifs d'apprentissage multi-tâches pour optimiser conjointement les trois types de non-fiabilité.

4 Résultats et analyse

4.1 Métriques de performance

Les meilleures performances ont atteint des scores F1 de 0,68 pour la classification intra-narrationale, 0,59 pour l'inter-narrationale et 0,52 pour l'inter-textuelle. Les résultats démontrent la difficulté progressive entre les types de non-fiabilité, l'inter-textuelle s'avérant la plus difficile en raison des connaissances externes requises.

4.2 Analyse comparative

Les modèles à poids ouverts avec fine-tuning ont surpassé les modèles propriétaires en few-shot sur les tâches intra-narrationales, tandis que les modèles propriétaires conservaient un avantage sur la classification inter-textuelle nécessitant une connaissance du monde plus étendue.

5 Cadre d'étude de cas

Scénario : Analyse d'avis hôtelier
Texte : "La chambre était absolument parfaite, bien que je suppose que le lit aurait pu être plus confortable et la vue n'était pas tout à fait ce à quoi je m'attendais. Le personnel était serviable, je pense."
Analyse : Ce texte présente une non-fiabilité intra-narrationale à travers des phrases atténuantes ("je suppose", "je pense") et des évaluations contradictoires, réduisant la crédibilité du narrateur malgré un ton globalement positif.

6 Applications futures

Les applications potentielles incluent l'évaluation automatisée de la crédibilité pour la modération de contenu en ligne, des outils éducatifs pour l'amélioration de l'écriture, la linguistique forensique pour l'analyse des témoignages légaux, et des systèmes d'IA conversationnelle améliorés capables de détecter l'incertitude ou la tromperie des utilisateurs.

7 Analyse critique

Idée centrale : Cette recherche représente une tentative audacieuse mais fondamentalement imparfaite de quantifier la théorie littéraire par des méthodes computationnelles. L'ambition des auteurs de faire le pont entre narratologie et TAL est louable, mais leur approche souffre d'une simplification excessive de phénomènes psychologiques complexes.

Flux logique : L'article suit une structure conventionnelle de recherche en ML—définition du problème, création de jeu de données, expérimentation, résultats. Cependant, le saut logique de la théorie littéraire vers les étiquettes computationnelles manque de validation rigoureuse. À l'instar des premières tentatives d'analyse de sentiment qui réduisaient les émotions complexes à des binaires positif/négatif, ce travail risque de créer un lit de Procuste où des dispositifs narratifs nuancés sont forcés dans des catégories rigides.

Forces et faiblesses : Le jeu de données TUN A est le joyau de cet article—annoté par des experts, multi-domaines et publiquement disponible. Cela comble une lacune critique dans les ressources d'analyse narrative. Cependant, les performances de classification (scores F1 0,52-0,68) révèlent des limitations fondamentales. Les modèles peinent particulièrement avec la non-fiabilité inter-textuelle, reflétant les défis notés dans l'article CycleGAN où l'adaptation de domaine fonctionne mieux pour les caractéristiques superficielles que sémantiques. L'approche d'apprentissage curriculaire montre des promesses mais semble sous-développée comparée aux techniques d'entraînement progressif utilisées dans les modèles vision-langage comme CLIP.

Perspectives actionnables : Les travaux futurs devraient incorporer des caractéristiques psycholinguistiques au-delà des motifs textuels—indices prosodiques pour les récits oraux, analyse du rythme d'écriture, et conventions narratives interculturelles. Le domaine devrait s'inspirer des cadres de psychologie cognitive comme la Théorie de l'Esprit pour modéliser l'intentionnalité du narrateur. Plus crucialement, les chercheurs doivent aborder les implications éthiques : l'évaluation automatisée de la fiabilité pourrait devenir un outil dangereux pour discréditer les voix marginalisées si elle n'est pas développée avec une considération attentive des facteurs culturels et contextuels.

8 Références

  1. Booth, W.C. (1961). The Rhetoric of Fiction.
  2. Nünning, A. (2015). Handbook of Narratology.
  3. Hansen, P.K. (2007). Reconsidering the Unreliable Narrator.
  4. Zhu et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks.
  5. Radford et al. (2021). Learning Transferable Visual Models From Natural Language Supervision.