選擇語言

AudioBoost:透過LLM生成合成查詢,提升Spotify搜尋中的有聲書探索

分析AudioBoost系統,其運用LLM從有聲書元數據生成合成查詢,以改善Spotify冷啟動情境下的檢索與查詢建議。
audio-novel.com | PDF Size: 0.6 MB
評分: 4.5/5
您的評分
您已經為此文檔評過分
PDF文檔封面 - AudioBoost:透過LLM生成合成查詢,提升Spotify搜尋中的有聲書探索

1. 簡介與問題陳述

Spotify進軍有聲書領域,創造了一個典型的冷啟動問題。該平台多年來針對音樂和播客互動優化的搜尋與推薦系統,對這種新內容類型產生了嚴重的可檢索性偏差。用戶不習慣搜尋有聲書,而系統也缺乏足夠的互動數據來準確地將它們與既有內容進行排名。這形成了一個惡性循環:低能見度導致互動稀少,進而加劇了排名不佳的情況。核心挑戰有兩個方面:1) 激勵用戶輸入探索性、基於主題的有聲書查詢(例如,「以北歐為背景的心理驚悚小說」),而非特定書名;2) 增強檢索系統,以有效處理這些幾乎沒有真實用戶數據的廣泛探索性查詢。

2. AudioBoost 系統

AudioBoost是Spotify針對此冷啟動挑戰所設計的工程化解決方案。它不僅僅是排名調整,而是一個利用合成數據來啟動探索的系統性介入。

2.1 核心方法論

該系統利用與每本有聲書相關的豐富、結構化元數據(書名、作者、出版商、類型、簡介、主題元素)。這些元數據是生成的種子。

2.2 使用LLM生成合成查詢

系統提示一個大型語言模型(LLM),根據這些元數據生成多個合理的用戶搜尋查詢。例如,給定一本關於人工智慧的科幻有聲書元數據,LLM可能會生成如下查詢:「最佳AI反烏托邦小說」、「關於意識的科幻書籍」、「關於科技的未來故事」。這個過程人為地創造了搜尋流量的「長尾」,而這通常需要時間自然發展。

2.3 雙重索引策略

AudioBoost的巧妙之處在於其雙重應用:

  • 查詢自動完成 (QAC): 將合成查詢作為建議注入,透過植入探索性搜尋想法直接影響用戶行為。
  • 搜尋檢索引擎: 將相同的合成查詢針對有聲書進行索引,提高其對類似真實用戶查詢的匹配分數,從而增加其可檢索性。
這創造了一個正向回饋循環:更好的建議導致更多探索性查詢,而檢索系統則能更好地服務這些查詢。

關鍵成果一覽

  • 有聲書曝光次數: +0.7%
  • 有聲書點擊次數: +1.22%
  • 探索性查詢完成次數: +1.82%

來源:線上A/B測試,AudioBoost系統

3. 技術實作與評估

3.1 離線評估指標

在實際測試之前,合成查詢的品質和效用已在離線環境中進行評估。可能包含的指標有:

  • 查詢相關性: 透過人工或基於模型的評估,判斷生成的查詢是否為關聯有聲書的合理搜尋。
  • 可檢索性覆蓋率: 衡量在索引合成數據後,一籃子測試查詢的搜尋結果前K名中出現的有聲書數量增加情況。
  • 多樣性與新穎性: 確保生成的查詢涵蓋廣泛的搜尋意圖(主題、類型、元素、氛圍),而不僅限於明顯的書名/作者匹配。
論文指出,合成查詢在離線環境中被證明具有「高品質」,並提高了可檢索性。

3.2 線上A/B測試結果

最終的驗證是透過受控的線上A/B測試。實驗組體驗了啟用AudioBoost的搜尋功能。結果具有統計顯著性且具有營運意義:

  • 有聲書曝光次數 +0.7%: 更多有聲書出現在搜尋結果中。
  • 有聲書點擊次數 +1.22%: 用戶對這些有聲書結果的互動增加。
  • 探索性查詢完成次數 +1.82%: 關鍵在於,用戶以更高的比率採用了系統建議的探索性查詢,證明了行為引導是有效的。
這些指標證實AudioBoost成功打破了冷啟動循環。

3.3 關鍵績效指標 (KPIs)

所選的KPIs與業務和產品目標精準對齊:探索(曝光次數)、互動(點擊次數)和查詢行為轉變(探索性查詢完成次數)。

4. 核心洞見與分析師觀點

核心洞見: Spotify的AudioBoost是應用AI實用主義的典範。它將冷啟動問題重新定義為缺乏訊號,而非缺乏數據。它沒有等待用戶有機地產生該訊號(對於新內容庫來說是失敗的策略),而是使用LLM大規模模擬用戶意圖,有效地啟動了市場。這是傳統基於內容過濾的更複雜演進,並透過生成式AI理解和模仿人類語言細微差別的能力而得到增強。

邏輯流程: 該系統的邏輯優雅地形成了一個循環且自我強化的過程。元數據 → 合成查詢 → 改進的QAC與檢索 → 用戶互動 → 真實數據 → 改進的模型。這是一條通往Spotify等平台所依賴的網路效應的工程捷徑。這種方法讓人聯想到電腦視覺中的技術,如CycleGAN(Zhu等人,2017),它學習在領域之間進行轉換(例如,馬到斑馬),而無需配對範例。類似地,AudioBoost學習在「有聲書元數據」領域和「用戶搜尋意圖」領域之間進行「轉譯」,而無需在一開始就依賴配對的(查詢,有聲書)互動數據。

優勢與缺陷: 主要優勢是其即時部署性和影響力,正如正向的A/B測試所示。這是一種低風險、高回報的介入措施,可在現有基礎設施(QAC、檢索索引)內運作。然而,此方法存在固有缺陷。首先,它可能創造一個「合成的回聲室」——如果LLM的查詢生成存在偏見或受限,它可能會縮小而非擴大探索的視野。其次,短期內它可能使檢索與真實用戶興趣脫鉤;一本書可能因為一個沒有真實用戶關心的合成查詢而被檢索出來。第三,正如史丹佛大學HAI等研究機構所指出的,如果沒有透過真實數據回饋循環仔細管理,過度依賴合成數據可能導致模型崩潰或意外漂移。

可執行的洞見: 對於產品領導者來說,結論很明確:生成式AI是你終極的冷啟動武器。 這個藍圖可以在各個領域複製——新產品類別、新地理市場、新內容格式。關鍵在於專注於生成過程的品質和多樣性。將提示工程、合成輸出的策展和驗證作為一級工程任務進行投資。此外,要為系統的淘汰做好規劃;AudioBoost的目標應該是加速收集真實數據,以便可以逐步淘汰或降低合成層的權重,過渡到一個完全有機的探索生態系統。這不是一個永久的拐杖,而是一個戰略加速器。

5. 技術細節與數學框架

雖然論文沒有深入探討複雜的公式,但核心的檢索增強可以概念化。令 $R(q, d)$ 為原始模型中文件(有聲書)$d$ 對於查詢 $q$ 的相關性分數。在冷啟動情況下,對於有聲書 $d_a$ 和探索性查詢 $q_e$,由於數據稀疏,$R(q_e, d_a)$ 很低。

AudioBoost為 $d_a$ 生成一組合成查詢 $Q_s = \{q_{s1}, q_{s2}, ..., q_{sn}\}$。然後增強檢索系統,使新的相關性分數 $R'(q, d)$ 考慮與這些合成查詢的匹配。一個簡化的觀點可以是:

$R'(q_e, d_a) = R(q_e, d_a) + \lambda \cdot \sum_{q_s \in Q_s} \text{sim}(q_e, q_s) \cdot I(d_a, q_s)$

其中:

  • $\text{sim}(q_e, q_s)$ 是用戶探索性查詢與合成查詢之間的語意相似度分數(例如,來自嵌入模型)。
  • $I(d_a, q_s)$ 是 $d_a$ 和 $q_s$ 之間關聯的指標或強度(由LLM生成建立)。
  • $\lambda$ 是一個混合參數,控制合成訊號的影響力,隨著真實數據的累積應逐漸衰減。
這個框架展示了合成查詢如何作為橋樑,透過與其預先生成的合成對應項的語意相似性,來提升 $d_a$ 對於 $q_e$ 的分數。

6. 分析框架:非程式碼案例研究

情境: 一個新的串流平台「StreamFlow」推出了一個單口喜劇特別節目類別。它面臨著與Spotify在有聲書上相同的冷啟動問題。

應用AudioBoost框架:

  1. 識別元數據: 對於每個喜劇特別節目:喜劇演員姓名、特別節目名稱、標籤(例如,觀察型、政治型、超現實型)、文字稿關鍵字、錄製年份、觀眾氛圍(喧鬧、親密)。
  2. 定義查詢生成提示: 設計LLM提示,例如:「給定一個由[喜劇演員]表演、名為[名稱]、帶有標籤[標籤]的喜劇特別節目,生成10個用戶可能輸入以尋找類似喜劇內容的多樣化搜尋查詢。包括關於風格、主題、氛圍和類似喜劇演員的查詢。」
  3. 生成與索引: 對於一個標記為「政治諷刺」、「2020年代」的特別節目,LLM生成:「有趣的政治評論」、「關於時事的最佳諷刺作品」、「像[喜劇演員]的喜劇演員」、「關於現代社會的單口喜劇」。這些查詢被索引。
  4. 雙重應用: 當用戶開始輸入「關於...的喜劇」時,這些查詢會作為建議出現。當用戶搜尋「諷刺新聞節目」時,它們也有助於檢索這個特別節目。
  5. 衡量與迭代: 追蹤KPIs:喜劇特別節目曝光次數、播放開始次數、以及生成的查詢建議的使用情況。使用這些真實數據來微調LLM提示,並隨著舊特別節目累積觀看次數,逐漸降低其 $\lambda$ 參數。
這個案例研究展示了核心概念在有聲書之外的移植性。

7. 未來應用與研究方向

AudioBoost範式開啟了幾個引人注目的未來方向:

  • 跨模態與多模態檢索: 擴展到文字查詢之外。能否從元數據生成合成的音訊片段(例如,「播放聽起來像這樣的內容」)或視覺情緒板,以啟動語音或視覺搜尋?
  • 個人化合成生成: 從一體適用的合成查詢,轉向根據個別用戶檔案生成查詢。例如,對於收聽歷史播客的用戶,生成像「具有深度研究的歷史傳記」這樣的有聲書查詢,而非通用查詢。
  • 動態與自適應合成: 取代靜態批次生成,創建一個系統,其中合成查詢生成模型根據哪些合成查詢實際導致用戶互動而持續適應,形成一個自我改進的循環。
  • 減輕合成偏見: 一個主要的研究方向是開發方法來審核並確保LLM生成查詢的多樣性和公平性,以防止在探索過程中放大社會或內容庫偏見。來自演算法公平性研究的技術在此至關重要。
  • 企業搜尋中的應用: 此方法直接適用於公司內部搜尋引擎,用於新的文件庫、知識庫或產品目錄,其中初始用戶搜尋行為未知。
前沿在於使合成生成過程更加動態、個人化和可問責。

8. 參考文獻

  1. Azad, H. K., & Deepak, A. (2019). Query expansion techniques for information retrieval: A survey. Information Processing & Management, 56(5), 1698-1735.
  2. Jiang, J. Y., et al. (2021). Understanding and predicting user search mindset. ACM Transactions on Information Systems.
  3. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). [外部來源 - CycleGAN]
  4. Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). On the Risks and Challenges of Synthetic Data. [外部來源 - 研究機構]
  5. Palumbo, E., Penha, G., Liu, A., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. In Proceedings of the EARL Workshop@RecSys.
  6. Bennett, P. N., et al. (2012). Modeling the impact of short- and long-term behavior on search personalization. In Proceedings of the 35th international ACM SIGIR conference.