選擇語言

使用大型語言模型分類不可靠敘事者

利用LLMs計算識別不可靠敘事者之研究,包含TUN A資料集及敘事內、敘事間與文本間不可靠性分類。
audio-novel.com | PDF Size: 2.1 MB
評分: 4.5/5
您的評分
您已經為此文檔評過分
PDF文檔封面 - 使用大型語言模型分類不可靠敘事者

目錄

1 緒論

不可靠敘事者在計算語言學領域構成重大挑戰,特別是在第一人稱敘述於數位平台大量湧現的當下。本研究銜接敘事學的文學理論與現代自然語言處理技術,旨在開發敘事者可信度的自動分類系統。此工作填補了跨領域個人敘事信任評估的關鍵空白,涵蓋範圍包括社交媒體、評論與專業溝通等領域。

2 研究方法

2.1 TUN A資料集

TUN A(不可靠敘事者分類註解)資料集包含來自多個領域的專家註解敘事:部落格文章、subreddit討論、飯店評論與文學作品。該資料集收錄1,200個註解實例,並具備多維度可信度標籤。

2.2 不可靠性分類架構

定義三種不同的不可靠性類型:敘事內不可靠性(內部矛盾與言語特徵)、敘事間不可靠性(主要與次要敘事者間的矛盾)以及文本間不可靠性(與外部事實知識的衝突)。

2.3 實驗設置

實驗採用開放權重(Llama-2、Mistral)與專有(GPT-4、Claude-2)大型語言模型,配置包含少量樣本學習、微調與課程學習。課程學習方法讓模型逐步接觸日益複雜的可信度模式。

3 技術實作

3.1 數學架構

可信度分類問題形式化表示為:$P(R|T) = \frac{P(T|R)P(R)}{P(T)}$,其中$R$代表可信度標籤,$T$代表文本特徵。特徵提取採用轉換器注意力機制:$Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$

3.2 模型架構

雙編碼器架構分別處理敘事內容與上下文線索,再透過融合層整合。模型整合多任務學習目標,共同優化三種不可靠性類型。

4 結果與分析

4.1 效能指標

最佳表現達到F1分數:敘事內分類0.68、敘事間分類0.59、文本間分類0.52。結果顯示不同不可靠性類型的難度遞增,文本間分類因需要外部知識而最具挑戰性。

4.2 比較分析

在敘事內任務中,經過微調的開放權重模型表現優於少量樣本學習的專有模型,而專有模型在需要更廣泛世界知識的文本間分類任務中仍保持優勢。

5 個案研究架構

情境: 飯店評論分析
文本:「房間絕對完美,雖然我猜床鋪可以更舒適些,景觀也不完全符合我的預期。服務人員應該算親切吧,我想。」
分析: 此文本透過模糊措辭(「我猜」、「我想」)與矛盾評價展現敘事內不可靠性,儘管整體語氣正面,仍降低了敘事者可信度。

6 未來應用

潛在應用包含:線上內容審核的自動可信度評估、寫作改進的教育工具、法律證詞分析的司法語言學,以及能偵測使用者不確定性或欺騙行為的增強型對話AI系統。

7 批判性分析

核心洞見: 本研究是透過計算方法量化文學理論的大膽嘗試,但存在根本性缺陷。作者銜接敘事學與自然語言處理的雄心值得讚賞,但其方法過度簡化了複雜的心理現象。

邏輯脈絡: 本文遵循傳統機器學習研究結構——問題定義、資料集建立、實驗、結果。然而從文學理論到計算標籤的邏輯跳躍缺乏嚴謹驗證。如同早期情感分析將複雜情緒簡化為正面/負面二元分類的嘗試,本研究成果可能創造出「普羅克魯斯特斯之床」,使細膩的敘事手法被迫納入僵化分類。

優勢與缺陷: TUN A資料集是本文的皇冠明珠——專家註解、多領域且公開可用,填補了敘事分析資源的關鍵空白。然而分類效能(F1分數0.52-0.68)揭示了根本限制。模型在文本間不可靠性方面尤其困難,這與CycleGAN論文指出的挑戰相呼應——領域適應在表層特徵的效果優於語義特徵。課程學習方法展現潛力,但與CLIP等視覺語言模型使用的漸進訓練技術相比顯得未臻成熟。

可行建議: 未來工作應整合超越文本模式的心理語言學特徵——口語敘事的韻律線索、寫作節奏分析,以及跨文化敘事慣例。此領域應參考心智理論等認知心理學架構來建模敘事者意圖。最關鍵的是,研究者必須正視倫理影響:若未審慎考量文化與情境因素,自動可信度評估可能成為貶抑邊緣群體聲音的危险工具。

8 參考文獻

  1. Booth, W.C. (1961). 《小說修辭學》
  2. Nünning, A. (2015). 《敘事學手冊》
  3. Hansen, P.K. (2007). 《重新思考不可靠敘事者》
  4. Zhu et al. (2017). 《使用循環一致對抗網絡的非配對圖像轉換》
  5. Radford et al. (2021). 《從自然語言監督中學習可遷移視覺模型》