Выбрать язык

AudioBoost: Улучшение поиска аудиокниг в Spotify с помощью синтетических запросов, генерируемых LLM

Исследование использования больших языковых моделей для генерации синтетических запросов с целью повышения находимости аудиокниг в поисковой системе Spotify, решающее проблемы холодного старта через автодополнение запросов и улучшение поиска.
audio-novel.com | PDF Size: 0.6 MB
Оценка: 4.5/5
Ваша оценка
Вы уже оценили этот документ
Обложка PDF-документа - AudioBoost: Улучшение поиска аудиокниг в Spotify с помощью синтетических запросов, генерируемых LLM

Содержание

1. Введение

Появление аудиокниг в Spotify создало серьёзную проблему холодного старта, когда новый контент имеет низкую находимость по сравнению с устоявшимися предложениями музыки и подкастов. Система AudioBoost решает эту задачу, используя большие языковые модели для генерации синтетических запросов, которые улучшают как формулировку запросов, так и возможности поиска.

Ключевые показатели эффективности

  • Показы аудиокниг: +0.7%
  • Клики по аудиокнигам: +1.22%
  • Исследовательские автодополнения запросов: +1.82%

2. Методология

2.1 Генерация синтетических запросов

AudioBoost использует LLM, обученные на метаданных аудиокниг, для генерации разнообразных исследовательских запросов, охватывающих темы, жанры, литературные тропы и десятилетия. Процесс генерации следует структурированному подходу инженерии промптов для обеспечения качества и релевантности запросов.

2.2 Интеграция с автодополнением запросов

Синтетические запросы интегрируются в систему автодополнения запросов Spotify, чтобы побуждать пользователей вводить более исследовательские запросы, решая проблему несоответствия словаря между поведением пользователей при поиске и содержанием аудиокниг.

2.3 Улучшение поисковой системы

Сгенерированные запросы индексируются в поисковой системе Spotify, создавая дополнительные пути для обнаружения аудиокниг через более широкие, тематические поиски, а не только точные совпадения по названиям.

3. Техническая реализация

3.1 Математическая модель

Улучшение находимости можно смоделировать с помощью вероятностной модели: $P(r|q,d) = \frac{\exp(\text{sim}(q,d))}{\sum_{d' \in D} \exp(\text{sim}(q,d'))}$, где $q$ представляет запросы, $d$ представляет документы, а $\text{sim}$ — функция схожести. Генерация синтетических запросов направлена на максимизацию $\sum_{q \in Q_{\text{syn}}} P(r|q,d_{\text{audiobook}})$.

3.2 Программная реализация

class AudioBoostQueryGenerator:
    def __init__(self, llm_model, metadata_fields):
        self.llm = llm_model
        self.fields = metadata_fields
    
    def generate_queries(self, audiobook_data, num_queries=10):
        prompt = self._construct_prompt(audiobook_data)
        synthetic_queries = self.llm.generate(
            prompt=prompt,
            max_tokens=50,
            num_return_sequences=num_queries
        )
        return self._filter_queries(synthetic_queries)
    
    def _construct_prompt(self, data):
        return f"""Generate diverse search queries for audiobook:
        Title: {data['title']}
        Author: {data['author']}
        Genre: {data['genre']}
        Themes: {data['themes']}
        Generate exploratory queries about topics, similar books, mood:"""

4. Результаты экспериментов

4.1 Оффлайн-оценка

Оффлайн-оценка продемонстрировала значительные улучшения в метриках находимости аудиокниг. Синтетические запросы увеличили охват на 35% по сравнению только с органическими запросами, при этом оценки качества превысили 0.85 по шкалам человеческой оценки.

4.2 Онлайн A/B-тестирование

Онлайн A/B-тест с участием миллионов пользователей показал статистически значимые улучшения: +0.7% в показах аудиокниг, +1.22% в кликах по аудиокнигам и +1.82% в исследовательских автодополнениях запросов, что подтверждает эффективность подхода AudioBoost.

5. Перспективы применения

Методология AudioBoost может быть расширена на другие сценарии холодного старта в контентных платформах, включая новые подкаст-шоу, emerging музыкальные жанры и видеоконтент. Будущая работа включает персонализацию синтетических запросов на основе истории прослушивания пользователей и интеграцию мультимодального понимания контента.

Экспертный анализ: Проблема холодного старта в обнаружении контента

AudioBoost представляет собой прагматичное решение одной из самых устойчивых проблем в рекомендательных системах: дилеммы холодного старта. Этот подход искусственно преодолевает разрыв между ограниченными пользовательскими взаимодействиями и комплексным обнаружением контента, используя LLM в качестве синтетических пользовательских прокси. Эта методология согласуется с аналогичными техниками в компьютерном зрении, где трансляция доменов в стиле CycleGAN использовалась для генерации тренировочных данных для недостаточно представленных классов [Zhu et al., 2017].

Техническая реализация демонстрирует глубокое понимание динамики поисковой экосистемы. Одновременно воздействуя как на формулировку запросов (через QAC), так и на поиск, AudioBoost создаёт благотворный цикл, где улучшенные предложения приводят к лучшим запросам, которые в свою очередь улучшают производительность поиска. Этот двойной подход напоминает системы обучения с подкреплением, где пространства действий и наблюдений оптимизируются одновременно [Sutton & Barto, 2018].

Однако, наиболее значительным вкладом работы может быть демонстрация практического развёртывания LLM в производственных системах. В то время как многие исследования LLM сосредоточены на производительности на бенчмарках, AudioBoost показывает, как эти модели могут влиять на конкретные бизнес-метрики в реальных приложениях. Увеличение на +1.82% исследовательских запросов предполагает, что система успешно подталкивает пользовательское поведение к более ориентированным на открытие паттернам поиска, решая фундаментальную проблему холодного старта.

Подход может быть дополнительно улучшен за счёт включения пользовательско-специфичных факторов в генерацию запросов, аналогично тому, как современные рекомендательные системы персонализируют контент на основе индивидуальных предпочтений [Ricci et al., 2011]. Кроме того, интеграция анализа аудиоконтента может предоставить ещё одно измерение для генерации запросов, выходящее за рамки метаданных к реальному пониманию содержания.

6. Ссылки

  1. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision.
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
  3. Ricci, F., Rokach, L., & Shapira, B. (2011). Introduction to recommender systems handbook. Springer.
  4. Palumbo, E., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. EARL Workshop@RecSys.

Перспектива отраслевого аналитика

Суть проблемы: AudioBoost — это не просто очередной AI-эксперимент, это точечный удар по проблеме холодного старта, которая мучает контентные платформы десятилетиями. Spotify использует LLM не как чат-боты, а как стратегическое оружие для изменения пользовательского поведения и экономики обнаружения контента.

Логическая цепочка: Причинно-следственная цепь блестяще спроектирована: ограниченные взаимодействия с аудиокнигами → генерация синтетических запросов → улучшенные предложения QAC → модификация пользовательского поведения → увеличение исследовательских запросов → улучшенная находимость аудиокниг → улучшение бизнес-метрик. Это создаёт самоподдерживающийся цикл обнаружения, который фундаментально изменяет ландшафт экспозиции контента.

Сильные и слабые стороны: Выдающейся инновацией является двойное развёртывание как в системе предложения запросов, так и в поисковой системе — большинство компаний остановились бы на одном или другом. Рост на 1.82% исследовательских запросов демонстрирует реальное изменение поведения, а не просто алгоритмическую оптимизацию. Однако, подход рискует создать искусственную экосистему запросов, оторванную от подлинного пользовательского намерения, и в работе не рассматривается потенциальная деградация качества запросов со временем.

Практические выводы: Для продуктовых лидеров: это демонстрирует, что приложения LLM должны фокусироваться на вмешательствах на уровне экосистемы, а не на точечных решениях. Для инженеров: реальный урок заключается в продуктивизации академических техник — обратите внимание, как они использовали устоявшиеся метрики вместо погони за новыми оценочными рамками. Следующим рубежом будет персонализация этих синтетических запросов при сохранении разнообразия открытий.