目錄
1. 緒論
多媒體資料的快速增長,使得對跨模態高效檢索系統的需求日益迫切。儘管文字、影像和視訊檢索已取得顯著進展,但使用自然語言查詢的音訊檢索領域仍大多未被探索。本研究透過引入一個新穎框架,使用自由格式自然語言描述來檢索音訊內容,以解決這一關鍵缺口。
傳統音訊檢索方法依賴於元資料標籤或基於音訊的查詢,這限制了表達性和可用性。我們的方法讓使用者能夠使用詳細的自然語言描述聲音,例如「一名男子說話時伴隨著音樂播放,隨後有青蛙叫聲」,從而實現更精確且直觀地檢索符合時間事件序列的音訊內容。
10-30 秒
基準測試中的音訊片段時長範圍
2 個基準
為評估引入的新資料集
跨模態
文字到音訊的檢索方法
2. 方法論
2.1 基準資料集
我們基於 AUDIO CAPS 和 Clotho 資料集引入了兩個具挑戰性的基準。AUDIO CAPS 包含來自 AudioSet 的 10 秒音訊片段及人工撰寫的說明文字,而 Clotho 則收錄來自 Freesound 的 15-30 秒音訊片段並附有詳細描述。這些資料集提供了豐富的音訊-文字配對,對於訓練跨模態檢索系統至關重要。
2.2 跨模態檢索框架
我們的框架將視訊檢索架構應用於音訊檢索,並利用預訓練的音訊專家網路。該系統學習聯合嵌入,將相似的音訊和文字表徵映射到共享潛在空間中相近的位置。
2.3 預訓練策略
我們展示了在多樣化音訊任務上進行預訓練的益處,證明從相關領域進行遷移學習能顯著提升檢索效能。音訊專家集成能捕捉音訊內容的互補面向。
3. 技術實作
3.1 音訊特徵提取
我們採用多個預訓練音訊網路來提取豐富的特徵表徵。片段 $i$ 的音訊嵌入 $\mathbf{a}_i$ 計算如下:
$$\mathbf{a}_i = f_{\theta}(x_i)$$
其中 $f_{\theta}$ 代表音訊編碼器,$x_i$ 是原始音訊輸入。
3.2 文字編碼
文字查詢使用基於 Transformer 的模型進行編碼以捕捉語義。查詢 $j$ 的文字嵌入 $\mathbf{t}_j$ 為:
$$\mathbf{t}_j = g_{\phi}(q_j)$$
其中 $g_{\phi}$ 是文字編碼器,$q_j$ 是輸入查詢。
3.3 跨模態對齊
我們使用對比學習來最佳化音訊和文字嵌入之間的相似度。音訊 $i$ 與文字 $j$ 之間的相似度分數 $s_{ij}$ 計算如下:
$$s_{ij} = \frac{\mathbf{a}_i \cdot \mathbf{t}_j}{\|\mathbf{a}_i\| \|\mathbf{t}_j\|}$$
模型被訓練以最大化匹配配對的相似度,並最小化非匹配配對的相似度。
4. 實驗結果
4.1 基線效能
我們的實驗為基於文字的音訊檢索建立了強健的基線。模型在 AUDIO CAPS 和 Clotho 基準上均取得了令人鼓舞的結果,檢索準確度使用標準指標衡量,包括 Recall@K 和平均精確度均值。
圖 1:檢索效能比較
結果顯示,結合多個音訊專家的集成方法顯著優於單一模型方法。在多樣化音訊任務上進行預訓練帶來了實質改善,特別是對於涉及多個聲音事件的複雜查詢。
4.2 集成方法
我們展示了透過集成學習結合來自多個預訓練音訊網路特徵,能提升檢索的穩健性。不同的網路捕捉了音訊內容的互補面向,從而產生更全面的表徵。
4.3 消融研究
消融實驗驗證了我們框架中每個元件的重要性。研究揭示,音訊編碼器的選擇和跨模態對齊策略均對最終效能有顯著影響。
5. 分析框架
核心洞察
這項研究從根本上挑戰了音訊檢索的現狀,將依賴元資料的系統轉向基於內容的自然語言查詢。此方法代表了一種典範轉移,堪比 CycleGAN (Zhu et al., 2017) 在非配對影像轉換上的成就——透過跨模態對齊打破了對嚴格配對訓練資料的依賴。
邏輯流程
方法論遵循一個精密的三階段流程:從多樣化音訊專家提取特徵、自由格式文字的語義編碼,以及跨模態嵌入對齊。此架構反映了 CLIP (Radford et al., 2021) 在視覺-語言領域的成功,但針對音訊的時間和頻譜特性進行了調整。
優勢與缺陷
優勢: 集成方法巧妙地利用了現有的音訊專業知識,而非從頭開始訓練。基準的創建解決了該領域中關鍵的資料稀缺問題。對於視訊檢索應用的計算效率尤其引人注目。
缺陷: 該方法繼承了其組成網路的限制——預訓練資料中潛在的偏差、對罕見聲音事件泛化能力有限,以及對文字改寫的敏感性。文字描述和音訊事件之間的時間對齊對於較長序列仍然具有挑戰性。
可行洞察
對於實務工作者:從在特定領域音訊資料上微調集成方法開始。對於研究人員:專注於改進時間建模並解決改寫穩健性問題。該框架顯示出在音訊檔案庫搜尋和視訊檢索加速方面的立即適用性。
案例研究:音訊檔案庫搜尋
設想一個包含數千個未標記環境錄音的歷史音訊檔案庫。傳統基於關鍵字的搜尋因內容未標記而失敗。使用我們的框架,檔案管理員可以查詢「伴隨遠處雷聲的暴雨」並根據音訊內容(而非元資料)檢索相關片段。
6. 未來應用
該技術實現了眾多實際應用,包括:
- 智慧音訊檔案庫: 增強歷史聲音收藏(如 BBC 音效檔案庫)的搜尋能力
- 低功耗物聯網裝置: 用於保育和生物研究的基於音訊的監測系統
- 創意應用: 為播客、有聲書和多媒體製作提供自動化音效匹配
- 無障礙工具: 為視障使用者提供的音訊描述和檢索系統
- 視訊檢索加速: 在大規模搜尋系統中使用音訊作為視訊內容的代理
未來研究方向包括擴展至多語言查詢、改進時間推理能力,以及開發更適合即時應用的高效跨模態對齊技術。
7. 參考文獻
- Zhu, J. Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE ICCV.
- Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. ICML.
- Gemmeke, J. F., et al. (2017). Audio Set: An ontology and human-labeled dataset for audio events. IEEE ICASSP.
- Drossos, K., et al. (2020). Clotho: An Audio Captioning Dataset. IEEE ICASSP.
- Oncescu, A. M., et al. (2021). Audio Retrieval with Natural Language Queries. INTERSPEECH.
- Arandjelovic, R., & Zisserman, A. (2018). Objects that sound. ECCV.
- Harvard Dataverse: Audio Retrieval Benchmarks