AudioBoost：透過LLM生成合成查詢，提升Spotify搜尋中嘅有聲書發現能力

1. 簡介與問題陳述

Spotify擴展至有聲書領域，引發咗典型嘅冷啟動問題。平台嘅搜尋同推薦系統，經過多年針對音樂同Podcast互動嘅優化，對呢種新內容類型存在嚴重嘅檢索偏差。用戶唔習慣搜尋有聲書，而系統亦缺乏足夠嘅互動數據來準確將佢哋同現有內容進行排名。呢個造成咗惡性循環：低可見度導致互動少，而互動少又進一步令排名更差。核心挑戰有兩方面：1) 啟發用戶輸入探索性、基於主題嘅有聲書查詢（例如，「以北歐為背景嘅心理驚悚小說」），而唔係特定書名；2) 增強檢索系統，以有效處理呢啲廣泛、探索性嘅查詢，而呢類查詢幾乎冇真實用戶數據。

2. AudioBoost 系統

AudioBoost係Spotify針對呢個冷啟動挑戰而設計嘅解決方案。佢唔單止係排名調整，而係一個利用合成數據來啟動發現嘅系統性干預措施。

2.1 核心方法論

系統利用與每本有聲書相關嘅豐富、結構化元數據（書名、作者、出版商、類型、簡介、主題元素）。呢啲元數據就係生成嘅種子。

2.2 使用LLM生成合成查詢

系統會提示一個大型語言模型（LLM），根據呢啲元數據生成多個合理嘅用戶搜尋查詢。例如，對於一本關於AI嘅科幻有聲書元數據，LLM可能會生成類似嘅查詢：「最佳AI反烏托邦小說」、「關於意識嘅科幻書」、「關於科技嘅未來故事」。呢個過程人為地創造咗隨時間自然發展嘅搜尋流量「長尾」。

2.3 雙重索引策略

AudioBoost嘅巧妙之處在於其雙重應用：

查詢自動完成 (QAC)： 將合成查詢注入作為建議，通過植入探索性搜尋想法直接影響用戶行為。
搜尋檢索引擎： 將相同嘅合成查詢針對有聲書進行索引，提高其對類似真實用戶查詢嘅匹配分數，從而增加其可檢索性。

呢個創造咗一個正向反饋循環：更好嘅建議導致更多探索性查詢，而檢索系統隨後能更好地處理呢啲查詢。

關鍵結果一覽

有聲書曝光次數： +0.7%
有聲書點擊次數： +1.22%
探索性查詢完成次數： +1.82%

來源：線上A/B測試，AudioBoost系統

3. 技術實施與評估

3.1 離線評估指標

在進行線上測試之前，會離線評估合成查詢嘅質量同效用。指標可能包括：

查詢相關性： 通過人工或基於模型嘅評估，判斷生成嘅查詢是否係對相關有聲書嘅合理搜尋。
可檢索性覆蓋率： 衡量索引合成數據後，喺一籃子測試查詢嘅前K個搜尋結果中出現嘅有聲書數量嘅增加。
多樣性與新穎性： 確保生成嘅查詢涵蓋廣泛嘅搜尋意圖（主題、類型、主題元素、氛圍），而不僅僅係明顯嘅書名/作者匹配。

論文指出，合成查詢在呢個離線環境中被證明具有「高質量」，並提高咗可檢索性。

3.2 線上A/B測試結果

最終驗證係一個受控嘅線上A/B測試。實驗組體驗咗啟用AudioBoost嘅搜尋。結果具有統計學顯著性同實際意義：

+0.7% 有聲書曝光次數： 更多有聲書喺搜尋結果中出現。
+1.22% 有聲書點擊次數： 用戶對呢啲有聲書結果嘅互動更多。
+1.82% 探索性查詢完成次數： 關鍵在於，用戶以更高嘅比率採用咗系統建議嘅探索性查詢，證明行為引導措施有效。

呢啲指標證實AudioBoost成功打破咗冷啟動循環。

3.3 關鍵績效指標 (KPIs)

所選嘅KPIs與業務同產品目標高度一致：發現（曝光次數）、互動（點擊次數）同查詢行為轉變（探索性查詢完成次數）。

4. 核心洞察與分析師觀點

核心洞察： Spotify嘅AudioBoost係應用AI實用主義嘅典範。佢將冷啟動問題重新定義為唔係缺乏數據，而係缺乏信號。與其等待用戶有機地產生呢啲信號（對於新目錄而言係一個失敗嘅策略），不如使用LLM大規模模擬用戶意圖，有效地啟動市場。呢個係傳統基於內容過濾嘅更複雜演變，由生成式AI理解同模仿人類語言細微差別嘅能力所驅動。

邏輯流程： 系統嘅邏輯優雅地形成一個循環並自我強化。元數據 → 合成查詢 → 改進嘅QAC與檢索 → 用戶互動 → 真實數據 → 改進嘅模型。呢個係一個精心設計嘅捷徑，用於實現Spotify等平台所依賴嘅網絡效應。呢種方法令人聯想到電腦視覺中嘅技術，例如CycleGAN（Zhu等人，2017），佢學習喺唔同領域之間進行轉換（例如，馬到斑馬），而無需配對示例。同樣地，AudioBoost學習喺有聲書元數據領域同用戶搜尋意圖領域之間進行「轉換」，而無需一開始就依賴配對嘅（查詢，有聲書）互動數據。

優點與缺陷： 主要優點係其即時可部署性同影響力，正如正面嘅A/B測試所示。佢係一個低風險、高回報嘅干預措施，喺現有基礎設施（QAC、檢索索引）內運作。然而，呢種方法有固有缺陷。首先，佢有創造「合成回音室」嘅風險——如果LLM嘅查詢生成存在偏差或局限，可能會縮窄而非擴展發現嘅範圍。其次，佢可能喺短期內使檢索與真實用戶興趣脫鉤；一本書可能因為一個合成查詢而被檢索出來，但冇真實用戶關心呢個查詢。第三，正如史丹福大學HAI等研究機構指出，如果唔通過真實數據反饋循環仔細管理，過度依賴合成數據可能導致模型崩潰或意外漂移。

可行洞察： 對於產品領導者而言，結論好清晰：生成式AI係你嘅終極冷啟動武器。 呢個藍圖可以跨領域複製——新產品類別、新地理市場、新內容格式。關鍵在於專注於生成過程嘅質量同多樣性。將提示工程、合成輸出嘅策展同驗證作為首要工程任務進行投資。此外，要為系統嘅過時做好規劃；AudioBoost嘅目標應該係加速收集真實數據，以便可以逐步淘汰或降低合成層嘅權重，過渡到一個完全有機嘅發現生態系統。呢個唔係永久嘅拐杖，而係一個戰略加速器。

5. 技術細節與數學框架

雖然論文冇深入探討複雜公式，但核心檢索增強可以概念化。設 $R(q, d)$ 為原始模型中文件（有聲書）$d$ 對於查詢 $q$ 嘅相關性分數。喺冷啟動情況下，對於有聲書 $d_a$ 同探索性查詢 $q_e$，由於數據稀疏，$R(q_e, d_a)$ 會偏低。

AudioBoost為 $d_a$ 生成一組合成查詢 $Q_s = \{q_{s1}, q_{s2}, ..., q_{sn}\}$。然後增強檢索系統，使新嘅相關性分數 $R'(q, d)$ 考慮與呢啲合成查詢嘅匹配。一個簡化嘅觀點可以係：

$R'(q_e, d_a) = R(q_e, d_a) + \lambda \cdot \sum_{q_s \in Q_s} \text{sim}(q_e, q_s) \cdot I(d_a, q_s)$

其中：

$\text{sim}(q_e, q_s)$ 係用戶探索性查詢同合成查詢之間嘅語義相似度分數（例如，來自嵌入模型）。
$I(d_a, q_s)$ 係 $d_a$ 同 $q_s$ 之間嘅關聯指標或強度（由LLM生成建立）。
$\lambda$ 係一個混合參數，控制合成信號嘅影響，應隨真實數據積累而衰減。

呢個框架展示咗合成查詢如何充當橋樑，通過與其預生成嘅合成對應項嘅語義相似性，來提升 $d_a$ 對於 $q_e$ 嘅分數。

6. 分析框架：非編碼案例研究

場景： 一個新嘅串流平台「StreamFlow」推出單口喜劇特別節目類別。佢面臨同Spotify有聲書一樣嘅冷啟動問題。

應用AudioBoost框架：

識別元數據： 對於每個喜劇特別節目：喜劇演員姓名、特別節目名稱、標籤（例如，觀察型、政治型、超現實型）、文字稿關鍵字、錄製年份、觀眾氛圍（喧鬧、親密）。
定義查詢生成提示： 設計LLM提示，例如：「給定一個由[喜劇演員]表演、名為[名稱]、帶有標籤[標籤]嘅喜劇特別節目，生成10個用戶可能輸入以尋找類似喜劇內容嘅多樣化搜尋查詢。包括關於風格、主題、氛圍同類似喜劇演員嘅查詢。」
生成與索引： 對於一個標記為「政治諷刺」、「2020年代」嘅特別節目，LLM生成：「有趣嘅政治評論」、「關於時事嘅最佳諷刺作品」、「類似[喜劇演員]嘅喜劇演員」、「關於現代社會嘅單口喜劇」。將呢啲查詢進行索引。
雙重應用： 當用戶開始輸入「關於...嘅喜劇」時，呢啲查詢會作為建議出現。當用戶搜尋「諷刺新聞節目」時，佢哋亦有助於檢索呢個特別節目。
衡量與迭代： 追蹤KPIs：喜劇特別節目曝光次數、播放開始次數、生成查詢建議嘅使用情況。使用呢啲真實數據來微調LLM提示，並隨著舊特別節目觀看次數積累，逐漸降低其 $\lambda$ 參數。

呢個案例研究展示咗核心概念喺有聲書以外嘅可移植性。

7. 未來應用與研究方向

AudioBoost範式開啟咗幾個引人注目嘅未來方向：

跨模態與多模態檢索： 擴展至文本查詢以外。能否從元數據生成合成嘅音頻片段（例如，「播放類似呢個聲音嘅內容」）或視覺情緒板，以啟動語音或視覺搜尋？
個性化合成生成： 從一刀切嘅合成查詢，轉向根據個別用戶檔案生成查詢。例如，對於收聽歷史Podcast嘅用戶，生成類似「深入研究嘅歷史傳記」嘅有聲書查詢，而非通用查詢。
動態與自適應合成： 唔再係靜態批次生成，而係創建一個系統，其中合成查詢生成模型根據邊啲合成查詢實際導致用戶互動而持續適應，形成一個自我改進嘅循環。
減輕合成偏差： 一個主要研究方向係開發方法來審計同確保LLM生成查詢嘅多樣性同公平性，以防止在發現過程中放大社會或目錄偏差。來自算法公平性研究嘅技術將至關重要。
企業搜尋中嘅應用： 呢種方法直接適用於公司內部搜尋引擎，用於新文件庫、知識庫或產品目錄，其中初始用戶搜尋行為係未知嘅。

前沿在於使合成生成過程更加動態、個性化同可問責。

8. 參考文獻

Azad, H. K., & Deepak, A. (2019). Query expansion techniques for information retrieval: A survey. Information Processing & Management, 56(5), 1698-1735.
Jiang, J. Y., et al. (2021). Understanding and predicting user search mindset. ACM Transactions on Information Systems.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). [外部來源 - CycleGAN]
Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). On the Risks and Challenges of Synthetic Data. [外部來源 - 研究機構]
Palumbo, E., Penha, G., Liu, A., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. In Proceedings of the EARL Workshop@RecSys.
Bennett, P. N., et al. (2012). Modeling the impact of short- and long-term behavior on search personalization. In Proceedings of the 35th international ACM SIGIR conference.