選擇語言

基於自然語言查詢的跨模態音訊檢索

研究使用自由格式自然語言查詢檢索音訊,為跨模態音訊檢索引入新基準與基線方法。
audio-novel.com | PDF Size: 0.8 MB
評分: 4.5/5
您的評分
您已經為此文檔評過分
PDF文檔封面 - 基於自然語言查詢的跨模態音訊檢索

目錄

1. 緒論

多媒體資料的快速增長,使得對跨模態高效檢索系統的需求日益迫切。儘管文字、影像和視訊檢索已取得顯著進展,但使用自然語言查詢的音訊檢索領域仍大多未被探索。本研究透過引入一個新穎框架,使用自由格式自然語言描述來檢索音訊內容,以解決這一關鍵缺口。

傳統音訊檢索方法依賴於元資料標籤或基於音訊的查詢,這限制了表達性和可用性。我們的方法讓使用者能夠使用詳細的自然語言描述聲音,例如「一名男子說話時伴隨著音樂播放,隨後有青蛙叫聲」,從而實現更精確且直觀地檢索符合時間事件序列的音訊內容。

10-30 秒

基準測試中的音訊片段時長範圍

2 個基準

為評估引入的新資料集

跨模態

文字到音訊的檢索方法

2. 方法論

2.1 基準資料集

我們基於 AUDIO CAPS 和 Clotho 資料集引入了兩個具挑戰性的基準。AUDIO CAPS 包含來自 AudioSet 的 10 秒音訊片段及人工撰寫的說明文字,而 Clotho 則收錄來自 Freesound 的 15-30 秒音訊片段並附有詳細描述。這些資料集提供了豐富的音訊-文字配對,對於訓練跨模態檢索系統至關重要。

2.2 跨模態檢索框架

我們的框架將視訊檢索架構應用於音訊檢索,並利用預訓練的音訊專家網路。該系統學習聯合嵌入,將相似的音訊和文字表徵映射到共享潛在空間中相近的位置。

2.3 預訓練策略

我們展示了在多樣化音訊任務上進行預訓練的益處,證明從相關領域進行遷移學習能顯著提升檢索效能。音訊專家集成能捕捉音訊內容的互補面向。

3. 技術實作

3.1 音訊特徵提取

我們採用多個預訓練音訊網路來提取豐富的特徵表徵。片段 $i$ 的音訊嵌入 $\mathbf{a}_i$ 計算如下:

$$\mathbf{a}_i = f_{\theta}(x_i)$$

其中 $f_{\theta}$ 代表音訊編碼器,$x_i$ 是原始音訊輸入。

3.2 文字編碼

文字查詢使用基於 Transformer 的模型進行編碼以捕捉語義。查詢 $j$ 的文字嵌入 $\mathbf{t}_j$ 為:

$$\mathbf{t}_j = g_{\phi}(q_j)$$

其中 $g_{\phi}$ 是文字編碼器,$q_j$ 是輸入查詢。

3.3 跨模態對齊

我們使用對比學習來最佳化音訊和文字嵌入之間的相似度。音訊 $i$ 與文字 $j$ 之間的相似度分數 $s_{ij}$ 計算如下:

$$s_{ij} = \frac{\mathbf{a}_i \cdot \mathbf{t}_j}{\|\mathbf{a}_i\| \|\mathbf{t}_j\|}$$

模型被訓練以最大化匹配配對的相似度,並最小化非匹配配對的相似度。

4. 實驗結果

4.1 基線效能

我們的實驗為基於文字的音訊檢索建立了強健的基線。模型在 AUDIO CAPS 和 Clotho 基準上均取得了令人鼓舞的結果,檢索準確度使用標準指標衡量,包括 Recall@K 和平均精確度均值。

圖 1:檢索效能比較

結果顯示,結合多個音訊專家的集成方法顯著優於單一模型方法。在多樣化音訊任務上進行預訓練帶來了實質改善,特別是對於涉及多個聲音事件的複雜查詢。

4.2 集成方法

我們展示了透過集成學習結合來自多個預訓練音訊網路特徵,能提升檢索的穩健性。不同的網路捕捉了音訊內容的互補面向,從而產生更全面的表徵。

4.3 消融研究

消融實驗驗證了我們框架中每個元件的重要性。研究揭示,音訊編碼器的選擇和跨模態對齊策略均對最終效能有顯著影響。

5. 分析框架

核心洞察

這項研究從根本上挑戰了音訊檢索的現狀,將依賴元資料的系統轉向基於內容的自然語言查詢。此方法代表了一種典範轉移,堪比 CycleGAN (Zhu et al., 2017) 在非配對影像轉換上的成就——透過跨模態對齊打破了對嚴格配對訓練資料的依賴。

邏輯流程

方法論遵循一個精密的三階段流程:從多樣化音訊專家提取特徵、自由格式文字的語義編碼,以及跨模態嵌入對齊。此架構反映了 CLIP (Radford et al., 2021) 在視覺-語言領域的成功,但針對音訊的時間和頻譜特性進行了調整。

優勢與缺陷

優勢: 集成方法巧妙地利用了現有的音訊專業知識,而非從頭開始訓練。基準的創建解決了該領域中關鍵的資料稀缺問題。對於視訊檢索應用的計算效率尤其引人注目。

缺陷: 該方法繼承了其組成網路的限制——預訓練資料中潛在的偏差、對罕見聲音事件泛化能力有限,以及對文字改寫的敏感性。文字描述和音訊事件之間的時間對齊對於較長序列仍然具有挑戰性。

可行洞察

對於實務工作者:從在特定領域音訊資料上微調集成方法開始。對於研究人員:專注於改進時間建模並解決改寫穩健性問題。該框架顯示出在音訊檔案庫搜尋和視訊檢索加速方面的立即適用性。

案例研究:音訊檔案庫搜尋

設想一個包含數千個未標記環境錄音的歷史音訊檔案庫。傳統基於關鍵字的搜尋因內容未標記而失敗。使用我們的框架,檔案管理員可以查詢「伴隨遠處雷聲的暴雨」並根據音訊內容(而非元資料)檢索相關片段。

6. 未來應用

該技術實現了眾多實際應用,包括:

  • 智慧音訊檔案庫: 增強歷史聲音收藏(如 BBC 音效檔案庫)的搜尋能力
  • 低功耗物聯網裝置: 用於保育和生物研究的基於音訊的監測系統
  • 創意應用: 為播客、有聲書和多媒體製作提供自動化音效匹配
  • 無障礙工具: 為視障使用者提供的音訊描述和檢索系統
  • 視訊檢索加速: 在大規模搜尋系統中使用音訊作為視訊內容的代理

未來研究方向包括擴展至多語言查詢、改進時間推理能力,以及開發更適合即時應用的高效跨模態對齊技術。

7. 參考文獻

  1. Zhu, J. Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE ICCV.
  2. Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. ICML.
  3. Gemmeke, J. F., et al. (2017). Audio Set: An ontology and human-labeled dataset for audio events. IEEE ICASSP.
  4. Drossos, K., et al. (2020). Clotho: An Audio Captioning Dataset. IEEE ICASSP.
  5. Oncescu, A. M., et al. (2021). Audio Retrieval with Natural Language Queries. INTERSPEECH.
  6. Arandjelovic, R., & Zisserman, A. (2018). Objects that sound. ECCV.
  7. Harvard Dataverse: Audio Retrieval Benchmarks