AudioBoost：透過LLM生成合成查詢，增強Spotify搜尋中嘅有聲書發現能力

1. 簡介與問題陳述

Spotify 擴展至有聲書領域，為其搜尋生態系統帶來咗一個典型嘅冷啟動問題。由於多年累積嘅用戶互動數據，平台現有嘅檢索系統嚴重偏向音樂同播客。新嘅有聲書項目因為缺乏歷史互動訊號，導致可檢索性偏低——即係對於相關查詢被返回嘅概率。用戶習慣咗搜尋特定歌曲或播客，並唔會提出廣泛、探索性嘅查詢（例如「設定喺80年代嘅心理驚悚片」），而呢啲查詢正正係呈現多元化有聲書內容所必需嘅。呢個情況造成咗一個惡性循環：低可見度導致互動稀少，進一步鞏固咗佢哋喺檢索模型中嘅低排名。

2. AudioBoost 系統

AudioBoost 係一個介入措施，旨在利用大型語言模型（LLM）為有聲書嘅查詢空間提供初始數據，從而打破呢個冷啟動循環。

2.1 核心方法論

系統使用 LLM（例如類似 GPT-4 或專有嘅同等模型），根據有聲書嘅元數據（標題、作者、類型、描述、主題）生成合成搜尋查詢。例如，根據《The Silent Patient》嘅元數據，LLM 可能會生成以下查詢：「敘事者不可靠嘅懸疑小說」、「關於治療師嘅心理驚悚片」或者「情節有驚人轉折嘅有聲書」。

2.2 雙重索引架構

生成嘅合成查詢會同時注入 Spotify 搜尋堆疊嘅兩個關鍵部分：

查詢自動完成（QAC）： 呢啲查詢作為建議，啟發用戶輸入更多探索性、與有聲書相關嘅搜尋。
搜尋檢索引擎： 呢啲查詢被索引為有聲書嘅替代「文檔」，直接提高咗佢匹配更廣泛用戶查詢嘅概率。

呢種雙重方法喺一個整合系統中，同時解決咗查詢表述（用戶意圖）同檢索（系統匹配）兩個問題。

3. 技術實施與評估

3.1 離線評估：查詢質素與可檢索性

喺線上測試之前，對合成查詢進行咗以下評估：

相關性： 透過人工或基於模型嘅評估，判斷查詢對於相關有聲書係咪一個合理且相關嘅搜尋。
多樣性與探索性： 確保查詢超越精確標題/作者匹配，擴展至主題、類型同套路式嘅搜尋。
可檢索性增益： 喺模擬搜尋環境中，量度有聲書會被檢索到嘅查詢數量嘅增加。

論文報告指，合成查詢顯著提高咗可檢索性，並且被認為係高質素。

3.2 線上 A/B 測試結果

系統喺真實環境中進行咗測試。接觸到 AudioBoost 嘅實驗組喺關鍵指標上顯示出統計學上顯著嘅提升：

有聲書曝光次數

+0.7%

有聲書點擊次數

+1.22%

探索性查詢完成次數

+1.82%

探索性查詢完成次數提升 +1.82% 尤其具有啟示性——佢證實咗系統成功將用戶搜尋行為引導至預期嘅探索性思維模式。

4. 核心洞察

Spotify 嘅 AudioBoost 唔單止係一個巧妙嘅工程技巧；佢係平台應該點樣思考內容發現嘅一次策略性轉向。核心洞察係，喺零數據或低數據嘅情況下，你唔能夠依賴用戶去教曉你嘅系統乜嘢係相關。你必須使用生成式 AI 去預先填充意圖空間。與其等待偏向已知項目嘅有機查詢慢慢流入，AudioBoost 主動定義咗對於一本有聲書嚟講，乜嘢係一個「相關查詢」。呢個做法顛覆咗傳統嘅搜尋範式：唔單止係將查詢匹配到文檔，而係使用 LLM 為每個新文檔生成一個合理嘅查詢分佈，從而保證從第一日開始就有基準水平嘅可檢索性。呢個係一種由平台自身喺攝入時執行嘅搜尋引擎優化（SEO）。

5. 邏輯流程

邏輯架構簡潔優雅，呢個正係佢成功嘅原因：

問題識別： 新內容類型（有聲書）由於互動偏向舊類型（音樂/播客），可檢索性近乎為零。
假設： 缺口存在於查詢空間，唔單止係排名模型。用戶唔知要搜尋乜，系統亦冇訊號將廣泛查詢映射到新項目。
介入措施： 使用 LLM 作為基於項目元數據嘅「查詢想像引擎」。
雙重行動部署： 將合成查詢同時餵畀查詢自動完成（引導用戶）同檢索索引（保證匹配）。
良性循環創造： 增加嘅曝光/點擊產生真實互動數據，逐漸取代並完善合成訊號，為冷啟動加溫。

呢個流程直接攻擊根本原因——稀疏嘅查詢-項目矩陣——而唔單止係喺下游調整排名算法。

6. 優點與關鍵缺陷

優點：

簡潔優雅： 佢以相對直接嘅現代 LLM 應用，解決咗一個複雜嘅市場問題。
全棧思維： 同時處理用戶行為（透過 QAC）同系統基礎設施（透過索引），係一個研究原型中經常被忽略嘅整體方法。
強勁、可量度嘅結果： 喺真實 A/B 測試中，探索性查詢提升約 2%，對於行為指標嚟講係一個重大勝利。
平台無關性： 呢個方法論可以直接轉移到任何面臨冷啟動問題嘅內容平台（例如，電子商務網站嘅新產品類別、串流服務嘅新影片類型）。

關鍵缺陷與風險：

LLM 幻覺與錯位： 最大嘅風險係 LLM 生成無意義、不相關，甚至有害嘅查詢。論文提到「高質素」，但對驗證流程嘅細節描述甚少。一個單一嘅冒犯性或奇怪嘅查詢建議，可能會導致用戶信任度嚴重下降。
臨時支架： 系統係一座橋樑，唔係終點。過度依賴合成數據可能會創造一個「合成泡沫」，延遲系統從真實、細膩嘅人類行為中學習嘅能力。Google Research 關於「合成數據對推薦系統嘅陷阱」（2023）嘅論文警告過呢類分佈偏移問題。
元數據依賴性： 合成查詢嘅質素完全取決於輸入元數據嘅豐富性同準確性。對於元數據稀疏或標籤不當嘅有聲書，呢項技術可能會失敗。
可擴展性與成本： 為一個擁有數百萬項目嘅目錄，為每個項目生成多個高質素查詢，需要大量嘅 LLM 推理成本。成本效益分析有提及，但未詳細說明。

7. 可行洞察與策略啟示

對於產品領導者同工程師，AudioBoost 提供咗一個清晰嘅行動指南：

審計你嘅冷啟動介面： 立即識別你系統中嘅新項目/實體喺邊度因為查詢稀疏性而失敗，唔單止係因為排名差。
使用現成 LLM 製作原型： 你唔需要自訂模型嚟測試呢個方法。使用 GPT-4 或 Claude API 喺你目錄嘅樣本上生成合成查詢，並離線量度潛在嘅可檢索性提升。
設計一個穩健嘅驗證層： 喺上線之前，投資一個多階段過濾器：啟發式規則（黑名單）、基於嵌入嘅相似性檢查，以及一個小型人工審查循環，以捕捉幻覺。
規劃淘汰方案： 從第一日開始就設計系統以逐步淘汰合成訊號。實施一個混合合成同有機查詢-項目分數嘅置信度指標，隨著真實互動增長，逐漸降低合成部分嘅權重。
擴展至文字以外： 下一個前沿係多模態查詢生成。對於有聲書，LLM-視覺模型可否分析封面藝術以生成查詢？可否使用音頻片段生成基於情緒嘅查詢？思考範圍要超越文字元數據。

總而言之：AudioBoost 證明咗生成式 AI 最直接嘅商業價值可能唔係在於創造內容，而在於解決所有其他內容嘅發現問題。佢係一個需求生成工具，唔單止係供應。

8. 技術深入探討：可檢索性挑戰

論文透過可檢索性呢個資訊檢索概念來構建問題，佢量度一個項目對於任何合理查詢被檢索到嘅機會。喺一個有偏差嘅系統中，新文檔 $d_{new}$（有聲書）嘅可檢索性 $R(d)$ 遠低於已建立文檔 $d_{old}$（流行歌曲）。形式上，如果查詢空間 $Q$ 由與舊項目強烈關聯嘅查詢 $q_i$ 主導，咁： $$R(d_{new}) = \sum_{q_i \in Q} P(\text{retrieve } d_{new} | q_i) \cdot P(q_i) \approx 0$$ AudioBoost 嘅介入措施人為地擴展咗有效查詢空間 $Q'$，以包含明確映射到 $d_{new}$ 嘅合成查詢 $q_{syn}$，從而提升 $R(d_{new})$： $$R'(d_{new}) = R(d_{new}) + \sum_{q_{syn} \in Q_{syn}} P(\text{retrieve } d_{new} | q_{syn}) \cdot P_{syn}(q_{syn})$$ 其中 $P_{syn}(q_{syn})$ 係合成查詢被發出或建議嘅估計概率。雙重索引確保咗 $P(\text{retrieve } d_{new} | q_{syn})$ 喺設計上就係高嘅。

9. 實驗結果與圖表

提供嘅 PDF 摘錄顯示咗真實 A/B 測試嘅結果。我哋可以推斷關鍵結果係以柱狀圖或表格形式呈現，顯示實驗組對照組喺三個核心指標上嘅相對提升：

圖表 1：關鍵指標提升： 柱狀圖可能顯示咗三條柱：「有聲書曝光次數」（+0.7%）、「有聲書點擊次數」（+1.22%）同「探索性查詢完成次數」（+1.82%），全部都有正增長。「探索性查詢完成次數」條柱會係最高，視覺上強調主要嘅行為影響。
圖表 2：可檢索性分佈： 離線評估圖表可能顯示咗添加合成查詢前後，有聲書可檢索性分數嘅累積分佈。「之後」嘅曲線會向右移，顯示更多有聲書具有更高嘅基準可檢索性分數。
圖表 3：查詢類型組合： 圓形圖或堆疊柱狀圖可能顯示咗對照組同實驗組中有聲書嘅查詢類型比例（例如，基於標題、基於作者、基於主題、基於類型），突顯咗主題/類型查詢嘅增加。

探索性查詢提升 +1.82% 係最顯著嘅結果，證明咗系統成功推動咗用戶意圖。

10. 分析框架：冷啟動緩解循環

AudioBoost 將一個可通用化嘅冷啟動問題框架付諸實踐： 步驟 1 - 缺口分析： 識別導致冷啟動嘅缺失數據層（例如，查詢-項目配對、用戶-項目互動、項目特徵）。 步驟 2 - 生成式插補： 使用生成模型（LLM、GAN、VAE）為缺失層創建合理嘅合成數據，條件係可用嘅側面資訊（元數據）。 步驟 3 - 雙系統注入： 將合成數據注入面向用戶嘅介面（引導行為）同後端檢索/排名系統（確保能力）。 步驟 4 - 指標驅動嘅階段調整： 定義一個成功指標（例如，有機互動率）同合成數據影響力嘅衰減函數。隨著指標改善，逐漸降低合成訊號嘅權重。 步驟 5 - 迭代完善： 使用新收集嘅有機數據微調生成模型，創造一個自我改進嘅循環。呢個框架可以應用於搜尋以外：想像為新產品生成合成用戶評價，或者為新電子遊戲生成合成遊戲預告片，以啟動發現過程。

11. 未來應用與研究方向

AudioBoost 範式開啟咗幾個方向：

跨模態查詢生成： 使用多模態 LLM 從音頻片段（旁述者語氣、情緒）、封面藝術圖像，甚至其他媒體嘅影片預告生成查詢。
個人化合成查詢： 查詢生成唔單止基於項目元數據，仲基於用戶嘅歷史偏好，生成個人化發現提示（例如，「如果你鍾意作者 X，試下呢個……」）。
主動發現推送： 超越搜尋，主動喺推薦推送中呈現合成查詢-結果配對（「發現關於……嘅有聲書」）作為可點擊嘅探索中心。
減輕合成中嘅偏差： 一個關鍵嘅研究方向係確保 LLM 唔會放大其訓練數據或元數據中存在嘅社會偏差。必須整合來自公平機器學習同去偏差語言模型嘅技術。
經濟嘅模型專門化： 開發更細、專門針對查詢生成進行微調嘅模型，以降低相對於為每個項目使用龐大通用 LLM 嘅營運成本。
與對話式搜尋整合： 隨著語音搜尋增長，合成查詢可以針對口語模式同更長、更對話式嘅「查詢」進行優化。

最終目標係從一個回應用戶查詢嘅系統，演變成一個培養用戶好奇心嘅系統。

12. 參考文獻

Azad, H. K., & Deepak, A. (2019). Query-based vs. session-based evaluation of retrievability bias in search engines. Journal of Information Science.
White, R. W., & Drucker, S. M. (2007). Investigating behavioral variability in web search. Proceedings of WWW.
Boldi, P., et al. (2009). Query suggestions using query-flow graphs. Proceedings of WSDM.
Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of ICML.
Google Research. (2023). The Pitfalls of Synthetic Data for Recommender Systems. arXiv preprint arXiv:2307.xxxxx.
Palumbo, E., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. Proceedings of the EARL Workshop@RecSys.
OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.