Содержание
1. Введение
Появление аудиокниг в Spotify создало серьёзную проблему холодного старта, когда новый контент имеет низкую находимость по сравнению с устоявшимися предложениями музыки и подкастов. Система AudioBoost решает эту задачу, используя большие языковые модели для генерации синтетических запросов, которые улучшают как формулировку запросов, так и возможности поиска.
Ключевые показатели эффективности
- Показы аудиокниг: +0.7%
- Клики по аудиокнигам: +1.22%
- Исследовательские автодополнения запросов: +1.82%
2. Методология
2.1 Генерация синтетических запросов
AudioBoost использует LLM, обученные на метаданных аудиокниг, для генерации разнообразных исследовательских запросов, охватывающих темы, жанры, литературные тропы и десятилетия. Процесс генерации следует структурированному подходу инженерии промптов для обеспечения качества и релевантности запросов.
2.2 Интеграция с автодополнением запросов
Синтетические запросы интегрируются в систему автодополнения запросов Spotify, чтобы побуждать пользователей вводить более исследовательские запросы, решая проблему несоответствия словаря между поведением пользователей при поиске и содержанием аудиокниг.
2.3 Улучшение поисковой системы
Сгенерированные запросы индексируются в поисковой системе Spotify, создавая дополнительные пути для обнаружения аудиокниг через более широкие, тематические поиски, а не только точные совпадения по названиям.
3. Техническая реализация
3.1 Математическая модель
Улучшение находимости можно смоделировать с помощью вероятностной модели: $P(r|q,d) = \frac{\exp(\text{sim}(q,d))}{\sum_{d' \in D} \exp(\text{sim}(q,d'))}$, где $q$ представляет запросы, $d$ представляет документы, а $\text{sim}$ — функция схожести. Генерация синтетических запросов направлена на максимизацию $\sum_{q \in Q_{\text{syn}}} P(r|q,d_{\text{audiobook}})$.
3.2 Программная реализация
class AudioBoostQueryGenerator:
def __init__(self, llm_model, metadata_fields):
self.llm = llm_model
self.fields = metadata_fields
def generate_queries(self, audiobook_data, num_queries=10):
prompt = self._construct_prompt(audiobook_data)
synthetic_queries = self.llm.generate(
prompt=prompt,
max_tokens=50,
num_return_sequences=num_queries
)
return self._filter_queries(synthetic_queries)
def _construct_prompt(self, data):
return f"""Generate diverse search queries for audiobook:
Title: {data['title']}
Author: {data['author']}
Genre: {data['genre']}
Themes: {data['themes']}
Generate exploratory queries about topics, similar books, mood:"""4. Результаты экспериментов
4.1 Оффлайн-оценка
Оффлайн-оценка продемонстрировала значительные улучшения в метриках находимости аудиокниг. Синтетические запросы увеличили охват на 35% по сравнению только с органическими запросами, при этом оценки качества превысили 0.85 по шкалам человеческой оценки.
4.2 Онлайн A/B-тестирование
Онлайн A/B-тест с участием миллионов пользователей показал статистически значимые улучшения: +0.7% в показах аудиокниг, +1.22% в кликах по аудиокнигам и +1.82% в исследовательских автодополнениях запросов, что подтверждает эффективность подхода AudioBoost.
5. Перспективы применения
Методология AudioBoost может быть расширена на другие сценарии холодного старта в контентных платформах, включая новые подкаст-шоу, emerging музыкальные жанры и видеоконтент. Будущая работа включает персонализацию синтетических запросов на основе истории прослушивания пользователей и интеграцию мультимодального понимания контента.
Экспертный анализ: Проблема холодного старта в обнаружении контента
AudioBoost представляет собой прагматичное решение одной из самых устойчивых проблем в рекомендательных системах: дилеммы холодного старта. Этот подход искусственно преодолевает разрыв между ограниченными пользовательскими взаимодействиями и комплексным обнаружением контента, используя LLM в качестве синтетических пользовательских прокси. Эта методология согласуется с аналогичными техниками в компьютерном зрении, где трансляция доменов в стиле CycleGAN использовалась для генерации тренировочных данных для недостаточно представленных классов [Zhu et al., 2017].
Техническая реализация демонстрирует глубокое понимание динамики поисковой экосистемы. Одновременно воздействуя как на формулировку запросов (через QAC), так и на поиск, AudioBoost создаёт благотворный цикл, где улучшенные предложения приводят к лучшим запросам, которые в свою очередь улучшают производительность поиска. Этот двойной подход напоминает системы обучения с подкреплением, где пространства действий и наблюдений оптимизируются одновременно [Sutton & Barto, 2018].
Однако, наиболее значительным вкладом работы может быть демонстрация практического развёртывания LLM в производственных системах. В то время как многие исследования LLM сосредоточены на производительности на бенчмарках, AudioBoost показывает, как эти модели могут влиять на конкретные бизнес-метрики в реальных приложениях. Увеличение на +1.82% исследовательских запросов предполагает, что система успешно подталкивает пользовательское поведение к более ориентированным на открытие паттернам поиска, решая фундаментальную проблему холодного старта.
Подход может быть дополнительно улучшен за счёт включения пользовательско-специфичных факторов в генерацию запросов, аналогично тому, как современные рекомендательные системы персонализируют контент на основе индивидуальных предпочтений [Ricci et al., 2011]. Кроме того, интеграция анализа аудиоконтента может предоставить ещё одно измерение для генерации запросов, выходящее за рамки метаданных к реальному пониманию содержания.
6. Ссылки
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision.
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
- Ricci, F., Rokach, L., & Shapira, B. (2011). Introduction to recommender systems handbook. Springer.
- Palumbo, E., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. EARL Workshop@RecSys.
Перспектива отраслевого аналитика
Суть проблемы: AudioBoost — это не просто очередной AI-эксперимент, это точечный удар по проблеме холодного старта, которая мучает контентные платформы десятилетиями. Spotify использует LLM не как чат-боты, а как стратегическое оружие для изменения пользовательского поведения и экономики обнаружения контента.
Логическая цепочка: Причинно-следственная цепь блестяще спроектирована: ограниченные взаимодействия с аудиокнигами → генерация синтетических запросов → улучшенные предложения QAC → модификация пользовательского поведения → увеличение исследовательских запросов → улучшенная находимость аудиокниг → улучшение бизнес-метрик. Это создаёт самоподдерживающийся цикл обнаружения, который фундаментально изменяет ландшафт экспозиции контента.
Сильные и слабые стороны: Выдающейся инновацией является двойное развёртывание как в системе предложения запросов, так и в поисковой системе — большинство компаний остановились бы на одном или другом. Рост на 1.82% исследовательских запросов демонстрирует реальное изменение поведения, а не просто алгоритмическую оптимизацию. Однако, подход рискует создать искусственную экосистему запросов, оторванную от подлинного пользовательского намерения, и в работе не рассматривается потенциальная деградация качества запросов со временем.
Практические выводы: Для продуктовых лидеров: это демонстрирует, что приложения LLM должны фокусироваться на вмешательствах на уровне экосистемы, а не на точечных решениях. Для инженеров: реальный урок заключается в продуктивизации академических техник — обратите внимание, как они использовали устоявшиеся метрики вместо погони за новыми оценочными рамками. Следующим рубежом будет персонализация этих синтетических запросов при сохранении разнообразия открытий.