選擇語言

基於語音旁述嘅弱監督動作檢測

本研究探討點樣利用有雜訊嘅語音旁述作為弱監督,去訓練影片動作檢測模型,從而降低標註成本,同時利用多模態特徵。
audio-novel.com | PDF Size: 0.9 MB
評分: 4.5/5
您的評分
您已經為此文檔評過分
PDF文檔封面 - 基於語音旁述嘅弱監督動作檢測

1. 引言

影片係一種豐富嘅多模態機器學習數據源,包含空間(視覺)、時間,同埋通常仲有聽覺資訊。然而,要充分發揮呢個潛力,最大障礙係為未經修剪嘅影片中嘅動作檢測獲取精確、實例級別嘅標註(開始時間、結束時間、動作標籤)成本極高。本文通過提出一種新嘅弱監督方法來解決呢個瓶頸,該方法利用廉價且易於獲取嘅語音旁述作為主要監督信號。核心洞察係,旁述雖然喺時間上唔精確(好似EPIC Kitchens數據集咁,只提供粗略嘅開始時間),但包含咗有價值嘅語義線索,可以引導模型關注相關嘅影片片段並學習有效嘅動作檢測器,從而顯著降低對標註嘅依賴。

2. 相關工作與問題陳述

2.1 動作檢測中嘅監督範式

時間動作檢測領域主要喺三種監督範式下運作:

  • 全監督:需要昂貴嘅實例級別標註(精確嘅時間邊界)。性能高但唔具擴展性。
  • 弱監督(影片級別):只使用影片級別嘅類別標籤。假設每個影片只有少量動作(例如,THUMOS14平均約1個類別/影片),呢個假設對於EPIC Kitchens中嘅長而複雜嘅影片(平均約35個類別/影片)嚟講唔現實。
  • 弱監督(旁述):本文提出嘅範式。使用有雜訊、單一時間戳嘅語音旁述轉錄文本作為弱標籤。呢種標籤比影片級別標籤提供更多資訊,但比完整實例標註更便宜。

數據集比較

THUMOS14: 平均 1.08 個類別/影片。 EPIC Kitchens: 平均 34.87 個類別/影片。呢個鮮明對比突顯咗傳統WSAD方法喺現實場景中嘅局限性。

2.2 弱監督嘅挑戰

核心挑戰係旁述時間戳與實際動作實例之間嘅時間錯位。模型必須學習抑制無關嘅背景畫面,並聚焦於與旁述動作相關嘅正確時間段,儘管標籤有雜訊。

3. 提出嘅方法

3.1 模型架構概覽

提出嘅模型係一個多模態架構,旨在處理並融合來自RGB畫面、光流(動作)同環境音軌嘅特徵。一個核心組件係時間注意力機制,該機制學習根據唔同影片畫面與提供嘅語音旁述標籤嘅相關性,來權衡佢哋嘅重要性。

3.2 從雜訊旁述中學習

模型唔係將旁述時間戳視為硬標籤,而係將其視為弱線索。學習目標鼓勵正確動作類別喺時間上接近旁述點嘅畫面獲得高激活分數,同時最小化所有其他畫面同類別嘅激活。呢個類似於一種多實例學習(MIL)形式,其中影片係一個畫面嘅「袋」,而正「實例」(動作)就喺旁述點附近某處。

3.3 多模態特徵融合

使用預訓練網絡(例如,RGB/光流用I3D,音頻用VGGish)提取唔同模態(RGB用於外觀,光流用於動作,音頻用於環境聲音)嘅特徵。然後通過早期串聯或更複雜嘅跨模態注意力模組融合呢啲特徵,以形成用於動作分類同定位嘅穩健聯合表徵。

4. 實驗與結果

4.1 數據集與設定

主要評估喺EPIC Kitchens 100數據集上進行,呢個係一個大規模嘅第一人稱視角影片數據集,具有密集嘅動作標註同相應嘅語音旁述。模型僅使用旁述開始時間同轉錄嘅動詞-名詞標籤進行訓練。使用標準嘅時間動作檢測指標(例如,唔同時間交並比(tIoU)閾值下嘅平均精度均值(mAP))來衡量性能。

4.2 量化結果

本文證明,僅使用旁述監督訓練嘅提出模型,與使用更昂貴監督訓練嘅模型相比,取得了有競爭力嘅性能。雖然佢自然落後於全監督基線,但顯著優於影片級別弱監督方法,尤其係喺每個影片有好多動作嘅數據集上。呢個驗證咗旁述提供咗一個有價值嘅「中間地帶」監督信號嘅假設。

4.3 消融研究

消融研究確認咗每個組件嘅重要性:

  • 多模態性: 使用RGB+光流+音頻特徵始終優於任何單一模態。
  • 時間注意力: 提出嘅注意力機制對於過濾無關畫面同提高定位準確性至關重要。
  • 旁述 vs. 影片級別: 喺EPIC Kitchens上,使用旁述標籤訓練比僅使用影片級別標籤產生更好嘅檢測結果,證明咗前者具有更優越嘅資訊含量。

5. 技術分析與框架

5.1 數學公式化

核心學習目標可以構建為分類損失同由弱旁述信號引導嘅時間定位損失嘅組合。設 $V = \{f_t\}_{t=1}^T$ 為一系列影片畫面特徵。對於一個帶有時間戳 $\tau_n$ 嘅旁述標籤 $y_n$,模型產生畫面級別類別分數 $s_t^c$。為每個畫面學習一個時間注意力權重 $\alpha_t$。旁述動作嘅分類損失係一個加權和: $$\mathcal{L}_{cls} = -\log\left(\frac{\exp(\sum_t \alpha_t s_t^{y_n})}{\sum_c \exp(\sum_t \alpha_t s_t^c)}\right)$$ 同時,對 $\alpha_t$ 應用時間平滑或稀疏損失 $\mathcal{L}_{temp}$,以鼓勵喺動作實例周圍形成峰值分佈。總損失為 $\mathcal{L} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{temp}$。

5.2 分析框架示例

案例分析:分析模型失敗模式
為咗理解模型嘅局限性,我哋可以構建一個分析框架:

  1. 數據檢查: 識別模型預測(時間段)與真實標註之間IoU較低嘅影片。手動檢查呢啲影片同佢哋嘅旁述。
  2. 分類: 對失敗進行分類。常見類別包括:
    • 旁述模糊性: 旁述(例如,「我喺度準備食物」)太過高層次,唔對應單一、短暫嘅動作實例。
    • 複合動作: 旁述嘅動作(例如,「拎起刀切菜」)包含多個子動作,令模型混淆。
    • 背景主導: 動作嘅視覺背景太雜亂或與其他非動作畫面相似。
  3. 根本原因與緩解措施: 對於「旁述模糊性」,解決方案可能涉及使用更複雜嘅語言模型來解析旁述粒度,或者引入一個學習信號,對模糊標籤嘅過長檢測進行懲罰。
呢種結構化分析超越咗簡單嘅指標報告,邁向可操作嘅模型診斷。

6. 討論與未來方向

核心洞察: 呢項工作係圍繞數據標註瓶頸嘅一個務實解決方案。佢正確指出,喺現實世界中,好似語音旁述、字幕或語音識別轉錄文本呢類「免費」監督信號係豐富嘅。真正嘅貢獻唔係一個新穎嘅神經網絡架構,而係一個令人信服嘅概念驗證,證明我哋可以——而且應該——設計學習系統來消化呢啲有雜訊嘅現實世界信號,而唔係等待完美整理嘅數據。

邏輯流程: 論證係穩固嘅:實例級別標註對於規模化不可持續 → 影片級別標籤對於複雜影片太弱 → 語音旁述係一個便宜、資訊豐富嘅中間地帶 → 呢度有一個可以使用佢嘅模型。使用動作分佈密集嘅EPIC Kitchens,係突顯影片級別監督缺陷嘅高明之舉。

優點與缺點: 優點係其實用性同對行業應用(例如,內容審核、影片搜索、輔助生活)清晰嘅價值主張,呢啲應用成本至關重要。缺點同許多弱監督方法一樣,係性能上限。模型根本上受到其監督中雜訊嘅限制。佢係一個良好嘅第一步,但唔係需要精確計時嘅高風險應用嘅最終解決方案。

可行見解: 對於研究人員:探索跨模態自監督(例如,利用Radford等人嘅對比語言-圖像預訓練(CLIP)工作)以進一步減少對任何文本標籤嘅依賴。對於從業者:立即將呢個範式應用於具有可用轉錄文本或音頻記錄嘅內部影片數據集。首先將記錄中嘅時間戳視為弱旁述點。

未來方向:

  • 利用大型視覺-語言模型(VLM): 好似CLIP或BLIP-2呢類模型提供咗強大嘅對齊視覺-文本表徵。未來工作可以使用呢啲作為強先驗,更好地將旁述短語定位於影片內容,可能克服一些模糊性問題。
  • 跨數據集泛化: 一個喺有旁述嘅第一人稱廚房影片(EPIC)上訓練嘅模型,能否檢測帶有解說員音頻嘅第三人稱體育影片中嘅動作?探索旁述引導學習嘅可遷移性係關鍵。
  • 從檢測到預測: 旁述通常喺動作發生時或之後即刻描述動作。呢個信號能否用於學習動作預測模型,喺動作發生前少少進行預測?
  • 與主動學習結合: 模型嘅不確定性或注意力權重可以用於僅就最令人困惑嘅旁述-影片對查詢人類標註員以獲取澄清,從而創建一個高效嘅人機協同標註系統。

7. 參考文獻

  1. Ye, K., & Kovashka, A. (2021). Weakly-Supervised Action Detection Guided by Audio Narration. In Proceedings of the ... (PDF Source).
  2. Damen, D., et al. (2018). Scaling Egocentric Vision: The EPIC-KITCHENS Dataset. European Conference on Computer Vision (ECCV).
  3. Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. International Conference on Machine Learning (ICML).
  4. Carreira, J., & Zisserman, A. (2017). Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. Conference on Computer Vision and Pattern Recognition (CVPR).
  5. Wang, L., et al. (2016). Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. European Conference on Computer Vision (ECCV).
  6. Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. International Conference on Computer Vision (ICCV).