AudioBoost：通过LLM生成合成查询增强Spotify有声读物搜索发现

1. 引言与问题陈述

Spotify向有声读物领域的扩张带来了典型的冷启动问题。该平台经过多年音乐和播客交互优化的搜索和推荐系统，在面对新内容类型时，遭受了严重的可检索性偏差。用户不习惯搜索有声读物，而系统也缺乏足够的交互数据来准确地将它们与既有内容进行排序。这形成了一个恶性循环：低可见度导致互动稀少，进而又加剧了糟糕的排名。核心挑战是双重的：1) 启发用户输入探索性的、基于主题的有声读物查询（例如，“设定在斯堪的纳维亚的心理惊悚小说”），而非具体的标题；2) 增强检索系统，以有效处理这些几乎没有真实用户数据的广泛探索性查询。

2. AudioBoost系统

AudioBoost是Spotify为应对这一冷启动挑战而设计的工程解决方案。它不仅仅是对排名的微调，更是一个利用合成数据来引导发现的系统性干预措施。

2.1 核心方法

该系统利用与每本有声读物相关联的丰富、结构化的元数据（标题、作者、出版商、流派、简介、主题元素）。这些元数据是生成的种子。

2.2 使用LLM生成合成查询

系统提示一个大语言模型，基于这些元数据生成多个合理的用户搜索查询。例如，给定一本关于AI的科幻有声读物的元数据，LLM可能会生成如下查询：“最佳AI反乌托邦小说”、“关于意识的科幻书籍”、“关于技术的未来主义故事”。这个过程人为地创造了随着时间推移自然发展起来的搜索流量“长尾”。

2.3 双索引策略

AudioBoost的精妙之处在于其双重应用：

查询自动补全： 将合成查询作为建议注入，通过植入探索性搜索想法直接影响用户行为。
搜索检索引擎： 相同的合成查询被针对有声读物建立索引，提高其在类似真实用户查询中的匹配分数，从而增强其可检索性。

这创造了一个正向反馈循环：更好的建议带来更多探索性查询，而检索系统又能更好地服务于这些查询。

关键结果一览

有声读物曝光量： +0.7%
有声读物点击量： +1.22%
探索性查询补全量： +1.82%

来源：在线A/B测试，AudioBoost系统

3. 技术实现与评估

3.1 离线评估指标

在线上测试之前，合成查询的质量和效用已在离线环境中进行评估。指标可能包括：

查询相关性： 通过人工或基于模型的评估，判断生成的查询是否是对应有声读物的合理搜索。
可检索性覆盖率： 衡量在索引合成数据后，出现在一组测试查询的Top-K搜索结果中的有声读物数量的增加。
多样性与新颖性： 确保生成的查询涵盖广泛的搜索意图（主题、流派、元素、氛围），而不仅仅是明显的标题/作者匹配。

论文指出，合成查询在离线环境中被证明具有“高质量”，并提高了可检索性。

3.2 在线A/B测试结果

最终的验证是通过受控的在线A/B测试完成的。实验组体验了启用AudioBoost的搜索。结果具有统计学显著性和实际意义：

+0.7% 有声读物曝光量： 更多有声读物出现在搜索结果中。
+1.22% 有声读物点击量： 用户更多地与这些有声读物结果互动。
+1.82% 探索性查询补全量： 关键的是，用户以更高的比例采纳了系统建议的探索性查询，证明了行为引导是有效的。

这些指标证实AudioBoost成功打破了冷启动循环。

3.3 关键绩效指标

所选的KPI与业务和产品目标高度契合：发现（曝光量）、参与度（点击量）和查询行为转变（探索性补全量）。

4. 核心见解与分析视角

核心见解： Spotify的AudioBoost是应用AI实用主义的典范。它将冷启动问题重新定义为缺乏信号，而非缺乏数据。它没有等待用户有机地生成信号（这对于新内容库来说是失败策略），而是利用LLM大规模模拟用户意图，有效地引导市场。这是对传统基于内容过滤的更复杂演进，由生成式AI理解和模仿人类语言细微差别的能力所驱动。

逻辑流程： 系统的逻辑优雅地形成了循环并自我强化。元数据 → 合成查询 → 改进的QAC与检索 → 用户参与 → 真实数据 → 改进的模型。这是一条通往Spotify等平台所依赖的网络效应的工程捷径。这种方法让人联想到计算机视觉中的技术，如CycleGAN（Zhu等人，2017），它能在没有配对示例的情况下学习领域间的转换（例如，马到斑马）。类似地，AudioBoost学习在“有声读物元数据”领域和“用户搜索意图”领域之间进行“翻译”，而无需在初始阶段依赖配对的（查询，有声读物）交互数据。

优势与缺陷： 主要优势在于其即时可部署性和影响力，正如积极的A/B测试所示。这是一种低风险、高回报的干预措施，可在现有基础设施（QAC、检索索引）内运行。然而，该方法存在固有缺陷。首先，它可能造成“合成的回音室”——如果LLM的查询生成存在偏见或局限，可能会缩小而非扩大发现范围。其次，短期内它可能使检索与真实用户兴趣脱钩；一本书可能因为一个没有真实用户关心的合成查询而被检索出来。第三，正如斯坦福HAI等机构的研究所指出的，如果未能通过真实数据反馈循环进行仔细管理，过度依赖合成数据可能导致模型崩溃或意外漂移。

可操作的见解： 对于产品领导者而言，结论很明确：生成式AI是您应对冷启动的终极武器。 这个蓝图可在多个领域复制——新产品类别、新地理市场、新内容格式。关键在于关注生成过程的质量和多样性。将提示工程、合成输出的筛选和验证作为首要的工程任务进行投入。此外，要为系统的过时做好规划；AudioBoost的目标应是加速收集真实数据，以便合成层可以逐步淘汰或降低权重，过渡到完全有机的发现生态系统。这不是一个永久的拐杖，而是一个战略加速器。

5. 技术细节与数学框架

虽然论文没有深入探讨复杂公式，但核心的检索增强可以概念化。设 $R(q, d)$ 为原始模型中文档（有声读物）$d$ 对于查询 $q$ 的相关性分数。在冷启动情况下，对于有声读物 $d_a$ 和探索性查询 $q_e$，由于数据稀疏，$R(q_e, d_a)$ 很低。

AudioBoost为 $d_a$ 生成一组合成查询 $Q_s = \{q_{s1}, q_{s2}, ..., q_{sn}\}$。然后，检索系统被增强，使得新的相关性分数 $R'(q, d)$ 会考虑与这些合成查询的匹配。一个简化的视图可以是：

$R'(q_e, d_a) = R(q_e, d_a) + \lambda \cdot \sum_{q_s \in Q_s} \text{sim}(q_e, q_s) \cdot I(d_a, q_s)$

其中：

$\text{sim}(q_e, q_s)$ 是用户的探索性查询与合成查询之间的语义相似度分数（例如，来自嵌入模型）。
$I(d_a, q_s)$ 是 $d_a$ 和 $q_s$ 之间关联的指示器或强度（由LLM生成建立）。
$\lambda$ 是一个混合参数，控制合成信号的影响，该参数应随着真实数据的积累而衰减。

这个框架展示了合成查询如何充当桥梁，通过与其预生成的合成对应项的语义相似性，提升 $d_a$ 对于 $q_e$ 的分数。

6. 分析框架：非代码案例研究

场景： 一个新的流媒体平台“StreamFlow”推出了单口喜剧特别节目类别。它面临着与Spotify在有声读物上相同的冷启动问题。

应用AudioBoost框架：

识别元数据： 对于每个喜剧特别节目：喜剧演员姓名、特别节目标题、标签（例如，观察类、政治类、超现实类）、文字稿关键词、录制年份、观众氛围（喧闹、亲密）。
定义查询生成提示： 设计LLM提示，例如：“给定一部由[喜剧演员]表演、标题为[标题]、标签为[标签]的喜剧特别节目，生成10个用户可能输入的、用于查找类似喜剧内容的多样化搜索查询。包括关于风格、主题、氛围和类似喜剧演员的查询。”
生成与索引： 对于一个标记为“政治讽刺”、“2020年代”的特别节目，LLM生成：“有趣的政治评论”、“关于时事的最佳讽刺作品”、“像[喜剧演员]这样的喜剧演员”、“关于现代社会的单口喜剧”。这些查询被建立索引。
双重应用： 当用户开始输入“关于...的喜剧”时，这些查询会作为建议出现。当用户搜索“讽刺新闻节目”时，它们也有助于检索到这个特别节目。
衡量与迭代： 跟踪KPI：喜剧特别节目曝光量、播放开始量、生成的查询建议使用量。利用这些真实数据微调LLM提示，并随着较旧的特别节目观看次数积累，逐步降低其 $\lambda$ 参数。

这个案例研究展示了核心概念在有声读物之外的通用性。

7. 未来应用与研究方向

AudioBoost范式开辟了几个引人注目的未来方向：

跨模态与多模态检索： 超越文本查询。能否从元数据生成合成的音频片段（例如，“播放听起来像这样的内容”）或视觉情绪板，以引导语音或视觉搜索？
个性化合成生成： 从一刀切的合成查询转向基于个体用户画像生成查询。例如，对于收听历史播客的用户，生成像“具有深度研究的历史传记”这样的有声读物查询，而非通用查询。
动态与自适应合成： 取代静态批量生成，创建一个系统，其中合成查询生成模型根据哪些合成查询实际导致了用户参与而持续适应，形成一个自我改进的循环。
缓解合成偏见： 一个主要的研究方向是开发方法来审计和确保LLM生成查询的多样性和公平性，以防止在发现过程中放大社会或内容库偏见。算法公平性研究的技术在这里至关重要。
在企业搜索中的应用： 这种方法直接适用于公司内部针对新文档库、知识库或产品目录的搜索引擎，这些场景中初始的用户搜索行为是未知的。

前沿在于使合成生成过程更加动态、个性化和可问责。

8. 参考文献

Azad, H. K., & Deepak, A. (2019). Query expansion techniques for information retrieval: A survey. Information Processing & Management, 56(5), 1698-1735.
Jiang, J. Y., et al. (2021). Understanding and predicting user search mindset. ACM Transactions on Information Systems.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). [外部来源 - CycleGAN]
Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). On the Risks and Challenges of Synthetic Data. [外部来源 - 研究机构]
Palumbo, E., Penha, G., Liu, A., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. In Proceedings of the EARL Workshop@RecSys.
Bennett, P. N., et al. (2012). Modeling the impact of short- and long-term behavior on search personalization. In Proceedings of the 35th international ACM SIGIR conference.

目录