1. 緒論
影片是機器學習中一種豐富的多模態資料來源,包含空間(視覺)、時間,以及通常還有聽覺資訊。然而,要充分利用此潛力,卻受到為未經修剪影片中的動作偵測取得精確、實例級別標註(開始時間、結束時間、動作標籤)所需的高昂成本所阻礙。本文透過提出一種新穎的弱監督方法來解決此瓶頸,該方法利用廉價且易於取得的音訊旁白作為主要的監督訊號。核心洞見在於,旁白雖然在時間上不精確(例如在 EPIC Kitchens 資料集中僅提供粗略的開始時間),但包含有價值的語義線索,可以引導模型關注相關的影片片段並學習有效的動作偵測器,從而顯著降低對標註的依賴。
2. 相關研究與問題陳述
2.1 動作偵測中的監督模式
時間動作偵測領域主要在三種監督模式下運作:
- 完全監督: 需要昂貴的實例級別標註(精確的時間邊界)。能帶來高效能但無法擴展。
- 弱監督(影片級別): 僅使用影片級別的類別標籤。假設每個影片中的動作很少(例如 THUMOS14 約有 ~1 個類別/影片),這對於像 EPIC Kitchens 中那樣長且複雜的影片(平均約 ~35 個類別/影片)來說並不現實。
- 弱監督(旁白): 本文提出的模式。使用帶有雜訊、單一時間戳記的音訊旁白轉錄稿作為弱標籤。這比影片級別標籤提供更多資訊,但比完整的實例標註更便宜。
資料集比較
THUMOS14: 平均 1.08 個類別/影片。EPIC Kitchens: 平均 34.87 個類別/影片。這種鮮明對比凸顯了傳統 WSAD 方法在現實場景中的局限性。
2.2 弱監督的挑戰
核心挑戰在於旁白時間戳記與實際動作實例之間的時間錯位。儘管標籤帶有雜訊,模型必須學會抑制不相關的背景影格,並聚焦於與旁白動作相關的正確時間片段。
3. 提出的方法
3.1 模型架構概覽
提出的模型是一個多模態架構,旨在處理並融合來自 RGB 影格、光流(動作)和環境音軌的特徵。一個核心元件是時間注意力機制,該機制學習根據不同影片影格與提供的音訊旁白標籤的相關性來加權其重要性。
3.2 從帶有雜訊的旁白中學習
模型並非將旁白時間戳記視為硬標籤,而是將其視為一種弱線索。學習目標鼓勵正確動作類別在時間上接近旁白點的影格獲得高啟用分數,同時最小化所有其他影格和類別的啟用。這類似於一種多實例學習形式,其中影片是影格的「袋子」,而正向「實例」(動作)位於旁白點附近的某處。
3.3 多模態特徵融合
來自不同模態的特徵(RGB 用於外觀、光流用於動作、音訊用於環境聲音)使用預訓練網路(例如,RGB/光流使用 I3D,音訊使用 VGGish)提取。這些特徵隨後透過早期串聯或更複雜的跨模態注意力模組進行融合,以形成用於動作分類與定位的穩健聯合表徵。
4. 實驗與結果
4.1 資料集與設定
主要在 EPIC Kitchens 100 資料集上進行評估,這是一個大規模的第一人稱視角影片資料集,具有密集的動作標註和對應的音訊旁白。模型僅使用旁白開始時間和轉錄的動詞-名詞標籤進行訓練。效能使用標準的時間動作偵測指標來衡量,例如在不同時間交併比閾值下的平均精確度均值。
4.2 量化結果
本文證明,僅使用旁白監督訓練的提出模型,與使用更昂貴監督訓練的模型相比,達到了具有競爭力的效能。雖然它自然落後於完全監督的基線模型,但顯著優於影片級別的弱監督方法,尤其是在每個影片包含許多動作的資料集上。這驗證了旁白提供了一個有價值的「中間地帶」監督訊號的假設。
4.3 消融研究
消融研究確認了每個元件的重要性:
- 多模態性: 使用 RGB+光流+音訊特徵始終優於任何單一模態。
- 時間注意力: 提出的注意力機制對於過濾不相關影格和提高定位準確性至關重要。
- 旁白 vs. 影片級別: 在 EPIC Kitchens 上,使用旁白標籤訓練比僅使用影片級別標籤產生更好的偵測結果,證明了前者具有更優越的資訊內容。
5. 技術分析與框架
5.1 數學公式化
核心學習目標可以框架化為分類損失和由弱旁白訊號引導的時間定位損失的組合。令 $V = \{f_t\}_{t=1}^T$ 為影片影格特徵序列。對於具有時間戳記 $\tau_n$ 的旁白標籤 $y_n$,模型產生影格級別的類別分數 $s_t^c$。為每個影格學習一個時間注意力權重 $\alpha_t$。旁白動作的分類損失是加權和: $$\mathcal{L}_{cls} = -\log\left(\frac{\exp(\sum_t \alpha_t s_t^{y_n})}{\sum_c \exp(\sum_t \alpha_t s_t^c)}\right)$$ 同時,對 $\alpha_t$ 應用時間平滑或稀疏損失 $\mathcal{L}_{temp}$,以鼓勵在動作實例周圍形成尖峰分佈。總損失為 $\mathcal{L} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{temp}$。
5.2 分析框架範例
個案研究:分析模型失敗模式
為了理解模型的局限性,我們可以建構一個分析框架:
- 資料檢視: 識別模型預測(時間片段)與真實標註之間交併比較低的影片。手動檢視這些影片及其旁白。
- 分類: 對失敗進行分類。常見類別包括:
- 旁白模糊性: 旁白(例如,「我正在準備食物」)過於高層次,無法與單一、短暫的動作實例對齊。
- 複合動作: 旁白描述的動作(例如,「拿刀切蔬菜」)由多個子動作組成,使模型混淆。
- 背景主導: 動作的視覺背景過於雜亂或與其他非動作影格相似。
- 根本原因與緩解: 對於「旁白模糊性」,解決方案可能涉及使用更複雜的語言模型來解析旁白粒度,或納入一個學習訊號,對模糊標籤的過長偵測進行懲罰。
6. 討論與未來方向
核心洞見: 這項工作是圍繞資料標註瓶頸的一種務實解決方案。它正確地指出,在現實世界中,像音訊旁白、隱藏字幕或自動語音辨識轉錄稿這樣的「免費」監督訊號非常豐富。真正的貢獻並非一個新穎的神經網路架構,而是一個令人信服的概念驗證,證明我們可以——而且應該——設計學習系統來消化這些帶有雜訊的真實世界訊號,而不是等待完美整理的資料。
邏輯流程: 論點是穩固的:實例級別標註無法永續擴展 → 影片級別標籤對於複雜影片來說太弱 → 音訊旁白是一個廉價、資訊豐富的中間地帶 → 這是一個可以使用它的模型。使用具有密集動作分佈的 EPIC Kitchens 來凸顯影片級別監督的缺陷,是一個絕妙之舉。
優點與缺點: 其優點在於實用性,以及對成本至關重要的產業應用(例如,內容審核、影片搜尋、輔助生活)具有清晰的價值主張。與許多弱監督方法一樣,其缺點在於效能上限。模型從根本上受到其監督訊號中雜訊的限制。這是一個很好的第一步,但對於需要精確計時的高風險應用來說,並非最終解決方案。
可操作的見解: 對於研究人員:探索跨模態自監督(例如,利用 Radford 等人提出的對比語言-圖像預訓練的工作)以進一步減少對任何文字標籤的依賴。對於實務工作者:立即將此模式應用於具有可用轉錄稿或音訊日誌的內部影片資料集。首先將日誌中的時間戳記視為弱旁白點。
未來方向:
- 利用大型視覺-語言模型: 像 CLIP 或 BLIP-2 這樣的模型提供了強大的對齊視覺-文字表徵。未來的工作可以利用這些作為強先驗,更好地將旁白短語與影片內容對齊,可能克服一些模糊性問題。
- 跨資料集泛化: 在帶有旁白的第一人稱廚房影片(EPIC)上訓練的模型,能否偵測帶有解說員音訊的第三人稱體育影片中的動作?探索旁白引導學習的可轉移性是關鍵。
- 從偵測到預測: 旁白通常描述正在發生或剛發生的動作。這個訊號能否用於學習動作預測模型,在動作發生前稍早進行預測?
- 與主動學習整合: 模型的不確定性或注意力權重可用於僅在最令人困惑的旁白-影片配對上向人類標註者查詢澄清,從而建立一個高效的人機協作標註系統。
7. 參考文獻
- Ye, K., & Kovashka, A. (2021). Weakly-Supervised Action Detection Guided by Audio Narration. In Proceedings of the ... (PDF Source).
- Damen, D., et al. (2018). Scaling Egocentric Vision: The EPIC-KITCHENS Dataset. European Conference on Computer Vision (ECCV).
- Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. International Conference on Machine Learning (ICML).
- Carreira, J., & Zisserman, A. (2017). Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. Conference on Computer Vision and Pattern Recognition (CVPR).
- Wang, L., et al. (2016). Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. European Conference on Computer Vision (ECCV).
- Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. International Conference on Computer Vision (ICCV).