AudioBoost：透過LLM生成合成查詢，提升Spotify搜尋中的有聲書探索能力

1. 簡介與問題陳述

Spotify 擴展至有聲書領域，在其搜尋生態系統中引入了一個典型的冷啟動問題。由於多年累積的使用者互動數據，平台現有的檢索系統嚴重偏向音樂和播客。新的有聲書項目因缺乏歷史互動訊號，而遭受低可檢索性——即針對相關查詢被返回的機率。習慣搜尋特定歌曲或播客的使用者，並未提出能呈現多樣有聲書內容所需的廣泛、探索性查詢（例如「設定在80年代的心理驚悚片」）。這形成了一個惡性循環：低能見度導致互動稀少，進而進一步鞏固了它們在檢索模型中的低排名。

2. AudioBoost 系統

AudioBoost 是一項介入措施，旨在透過利用大型語言模型來引導有聲書的查詢空間，從而打破這個冷啟動循環。

2.1 核心方法論

該系統使用 LLM（例如類似 GPT-4 或專有等效模型），根據有聲書元數據（標題、作者、類型、描述、主題）生成合成的搜尋查詢。例如，給定《The Silent Patient》的元數據，LLM 可能會生成如下查詢：「敘述者不可靠的懸疑小說」、「關於治療師的心理驚悚片」或「具有驚人劇情轉折的有聲書」。

2.2 雙重索引架構

生成的合成查詢會同時注入 Spotify 搜尋堆疊的兩個關鍵部分：

查詢自動完成： 這些查詢作為建議，激發使用者輸入更具探索性、與有聲書相關的搜尋。
搜尋檢索引擎： 這些查詢被索引為有聲書的替代「文件」，直接提高其與更廣泛使用者查詢的匹配機率。

這種雙重方法在一個整合系統中同時解決了查詢表述（使用者意圖）和檢索（系統匹配）問題。

3. 技術實作與評估

3.1 離線評估：查詢品質與可檢索性

在線上測試之前，對合成查詢進行了以下評估：

相關性： 透過人工或基於模型的評估，判斷查詢是否為關聯有聲書的合理且相關的搜尋。
多樣性與探索性： 確保查詢超越精確的標題/作者匹配，擴展至主題、類型及套路式的搜尋。
可檢索性增益： 在模擬搜尋環境中，衡量有聲書能被檢索到的查詢數量增加情況。

論文報告指出，合成查詢顯著提高了可檢索性，並被認為是高品質的。

3.2 線上 A/B 測試結果

該系統在真實環境中進行了測試。接觸到 AudioBoost 的實驗組在關鍵指標上顯示出統計學上顯著的提升：

有聲書曝光次數

+0.7%

有聲書點擊次數

+1.22%

探索性查詢完成次數

+1.82%

探索性查詢完成次數 +1.82% 的提升尤其具有啟發性——它證實了該系統成功地將使用者搜尋行為引導至預期的探索性思維模式。

4. 核心洞察

Spotify 的 AudioBoost 不僅是一個巧妙的工程技巧，更是平台應如何思考內容發現的戰略性轉變。核心洞察在於，在零數據或低數據的狀態下，你不能依賴使用者來教導系統什麼是相關的。你必須使用生成式人工智慧來預先填充意圖空間。AudioBoost 不是等待有機查詢慢慢流入——這個過程偏向已知項目——而是主動定義什麼可能是有聲書的「相關查詢」。這顛覆了傳統的搜尋典範：你不僅僅是將查詢與文件匹配，而是使用 LLM 為每個新文件生成一個合理的查詢分佈，從而從第一天起就保證了基礎水平的可檢索性。這是一種由平台自身在內容攝入時執行的搜尋引擎最佳化。

5. 邏輯流程

其邏輯架構優雅而簡單，這正是它有效的原因：

問題識別： 新的內容類型（有聲書）由於互動偏向舊類型（音樂/播客），可檢索性幾乎為零。
假設： 缺口存在於查詢空間，而不僅僅是排名模型。使用者不知道該搜尋什麼，系統也沒有訊號將廣泛的查詢映射到新項目。
介入措施： 使用 LLM 作為基於項目元數據的「查詢想像引擎」。
雙重行動部署： 將合成查詢同時提供給查詢自動完成（引導使用者）和檢索索引（保證匹配）。
創造良性循環： 增加的曝光/點擊產生了真實的互動數據，這些數據逐漸取代並完善合成訊號，從而為冷啟動加溫。

這個流程直接攻擊了根本原因——稀疏的查詢-項目矩陣——而不僅僅是調整下游的排名演算法。

6. 優勢與關鍵缺陷

優勢：

優雅的簡潔性： 它以相對直接的現代 LLM 應用，解決了複雜的市場問題。
全棧思維： 同時處理使用者行為（透過 QAC）和系統基礎設施（透過索引），這是一種研究原型中常被忽略的整體方法。
強勁、可衡量的結果： 在線上 A/B 測試中，探索性查詢提升約 2%，對於行為指標來說是一個重大的勝利。
平台無關性： 該方法論可直接轉移到任何面臨冷啟動問題的內容平台（例如，電子商務網站的新產品類別、串流媒體服務的新影片類型）。

關鍵缺陷與風險：

LLM 幻覺與錯位： 最大的風險是 LLM 生成無意義、不相關甚至有害的查詢。論文提到「高品質」，但對驗證流程的細節描述甚少。一個冒犯性或怪異的查詢建議可能會嚴重侵蝕使用者信任。
臨時性支架： 該系統是一座橋樑，而非終點。過度依賴合成數據可能創造一個「合成泡沫」，延遲系統從真實、細微的人類行為中學習的能力。Google Research 關於「推薦系統中合成數據的陷阱」（2023）的論文警告了此類分佈偏移問題。
元數據依賴性： 合成查詢的品質完全取決於輸入元數據的豐富性和準確性。對於元數據稀疏或標籤不佳的有聲書，此技術可能會失敗。
可擴展性與成本： 為數百萬項目的目錄中的每個項目生成多個高品質查詢，需要大量的 LLM 推理成本。成本效益分析被提及但未詳細說明。

7. 可執行洞察

對於產品領導者和工程師，AudioBoost 提供了一個清晰的指南：

審計你的冷啟動介面： 立即識別系統中哪些新項目/實體因查詢稀疏性（而不僅僅是排名不佳）而失敗。
使用現成 LLM 進行原型設計： 你不需要自訂模型來測試這個。使用 GPT-4 或 Claude API 在你的目錄樣本上生成合成查詢，並離線衡量潛在的可檢索性提升。
設計一個穩健的驗證層： 在上線前，投資於多階段過濾器：啟發式規則（黑名單）、基於嵌入的相似性檢查，以及一個小型人工審查循環來捕捉幻覺。
規劃淘汰方案： 從第一天起就設計系統以逐步淘汰合成訊號。實作一個混合合成與有機查詢-項目分數的信心指標，隨著真實互動增長，逐漸降低合成成分的權重。
擴展至文字之外： 下一個前沿是多模態查詢生成。對於有聲書，LLM-視覺模型能否分析封面藝術來生成查詢？能否使用音訊片段來生成基於情緒的查詢？思考範圍應超越文字元數據。

總結來說：AudioBoost 展示了生成式人工智慧最直接的商業價值可能不在於創造內容，而在於解決所有其他內容的發現問題。它是一個需求生成工具，而不僅僅是供給工具。

8. 技術深度解析：可檢索性挑戰

該論文透過可檢索性的視角來界定問題，這是資訊檢索中的一個概念，用於衡量一個項目對於任何合理查詢被檢索到的機會。在一個有偏見的系統中，新文件 $d_{new}$（有聲書）的可檢索性 $R(d)$ 遠低於已建立文件 $d_{old}$（熱門歌曲）的可檢索性。形式上，如果查詢空間 $Q$ 由與舊項目強烈關聯的查詢 $q_i$ 主導，那麼： $$R(d_{new}) = \sum_{q_i \in Q} P(\text{retrieve } d_{new} | q_i) \cdot P(q_i) \approx 0$$ AudioBoost 的介入人為地擴展了有效查詢空間 $Q'$，以包含明確映射到 $d_{new}$ 的合成查詢 $q_{syn}$，從而提升 $R(d_{new})$： $$R'(d_{new}) = R(d_{new}) + \sum_{q_{syn} \in Q_{syn}} P(\text{retrieve } d_{new} | q_{syn}) \cdot P_{syn}(q_{syn})$$ 其中 $P_{syn}(q_{syn})$ 是合成查詢被發出或建議的估計機率。雙重索引透過建構確保了 $P(\text{retrieve } d_{new} | q_{syn})$ 很高。

9. 實驗結果與圖表

提供的 PDF 摘錄顯示了線上 A/B 測試的結果。我們可以推斷，關鍵結果是以長條圖或表格形式呈現的，顯示了實驗組與對照組在三個核心指標上的相對提升：

圖表 1：關鍵指標提升： 長條圖可能顯示了三條長條：「有聲書曝光次數」（+0.7%）、「有聲書點擊次數」（+1.22%）和「探索性查詢完成次數」（+1.82%），均為正成長。「探索性查詢完成次數」的長條會是最高的，視覺上強調了主要的行為影響。
圖表 2：可檢索性分佈： 離線評估圖表可能顯示了在添加合成查詢前後，有聲書可檢索性分數的累積分佈。「之後」的曲線會向右移動，顯示更多有聲書具有更高的基礎可檢索性分數。
圖表 3：查詢類型組合： 圓餅圖或堆疊長條圖可能顯示了對照組與實驗組中有聲書查詢類型（例如，基於標題、基於作者、基於主題、基於類型）的比例，突顯了主題/類型查詢的增加。

探索性查詢 +1.82% 的提升是最顯著的結果，證明了該系統成功地推動了使用者意圖。

10. 分析框架：冷啟動緩解循環

AudioBoost 實作了一個適用於冷啟動問題的通用框架： 步驟 1 - 缺口分析： 識別導致冷啟動的缺失數據層（例如，查詢-項目配對、使用者-項目互動、項目特徵）。 步驟 2 - 生成式插補： 使用生成模型（LLM、GAN、VAE）為缺失層創建合理的合成數據，條件基於可用的輔助資訊（元數據）。 步驟 3 - 雙系統注入： 將合成數據注入面向使用者的介面（引導行為）和後端檢索/排名系統（確保能力）。 步驟 4 - 指標驅動的階段性調整： 定義一個成功指標（例如，有機互動率）和合成數據影響的衰減函數。隨著指標改善，逐漸降低合成訊號的權重。 步驟 5 - 迭代精煉： 使用新收集的有機數據來微調生成模型，創造一個自我改進的循環。這個框架可以應用於搜尋之外：想像為新產品生成合成使用者評論，或為新電子遊戲生成合成遊戲預告片，以引導發現。

11. 未來應用與研究方向

AudioBoost 典範開啟了幾個方向：

跨模態查詢生成： 使用多模態 LLM 從音訊片段（旁白語調、情緒）、封面藝術圖像，甚至其他媒體的影片預告片生成查詢。
個人化合成查詢： 查詢生成不僅基於項目元數據，還基於使用者的歷史偏好，生成個人化的發現提示（例如，「如果你喜歡作者 X，試試這個...」）。
主動式發現動態： 超越搜尋，主動在推薦動態中呈現合成查詢-結果配對（「發現關於...的有聲書」）作為可點擊的探索中心。
緩解合成中的偏見： 一個關鍵的研究方向是確保 LLM 不會放大其訓練數據或元數據中存在的社會偏見。必須整合來自公平機器學習和語言模型去偏見的技術。
經濟的模型專門化： 開發更小、專門針對查詢生成進行微調的模型，以降低相對於為每個項目使用龐大通用 LLM 的營運成本。
與對話式搜尋整合： 隨著語音搜尋的增長，合成查詢可以針對口語模式和更長、更具對話性的「查詢」進行最佳化。

最終目標是從一個回應使用者查詢的系統，演變為一個培養使用者好奇心的系統。

12. 參考文獻

Azad, H. K., & Deepak, A. (2019). Query-based vs. session-based evaluation of retrievability bias in search engines. Journal of Information Science.
White, R. W., & Drucker, S. M. (2007). Investigating behavioral variability in web search. Proceedings of WWW.
Boldi, P., et al. (2009). Query suggestions using query-flow graphs. Proceedings of WSDM.
Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of ICML.
Google Research. (2023). The Pitfalls of Synthetic Data for Recommender Systems. arXiv preprint arXiv:2307.xxxxx.
Palumbo, E., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. Proceedings of the EARL Workshop@RecSys.
OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.