AudioBoost: Улучшение поиска аудиокниг в Spotify с помощью синтетических запросов, генерируемых LLM

1. Введение и постановка проблемы

Расширение Spotify на аудиокниги привело к классической проблеме холодного старта в его поисковой экосистеме. Существующие системы поиска платформы были сильно смещены в сторону музыки и подкастов из-за многолетних накопленных данных о взаимодействии пользователей. Новые аудиокниги страдали от низкой находимости — вероятности быть возвращёнными по релевантным запросам — из-за отсутствия исторических сигналов вовлечённости. Пользователи, привыкшие искать конкретные песни или подкасты, не формулировали широкие, исследовательские запросы (например, «психологические триллеры, действие которых происходит в 80-х»), необходимые для отображения разнообразного контента аудиокниг. Это создавало порочный круг: низкая видимость приводила к малому количеству взаимодействий, что, в свою очередь, закрепляло их низкий ранг в моделях поиска.

2. Система AudioBoost

AudioBoost — это решение, предназначенное для разрыва этого цикла холодного старта за счёт использования больших языковых моделей (LLM) для начального формирования пространства запросов для аудиокниг.

2.1 Основная методология

Система использует LLM (например, модели, аналогичные GPT-4 или их проприетарные аналоги) для генерации синтетических поисковых запросов на основе метаданных аудиокниги (название, автор, жанр, описание, темы). Например, для метаданных книги «Безмолвный пациент» LLM может сгенерировать запросы: «детективы с ненадёжным рассказчиком», «психологические триллеры про психотерапевтов» или «Аудиокниги с шокирующими поворотами сюжета».

2.2 Архитектура с двойным индексированием

Сгенерированные синтетические запросы одновременно внедряются в две ключевые части поискового стека Spotify:

Автодополнение запросов (Query AutoComplete, QAC): Запросы служат подсказками, побуждая пользователей вводить более исследовательские, релевантные для аудиокниг поисковые фразы.
Поисковый движок: Запросы индексируются как альтернативные «документы» для аудиокниги, напрямую повышая вероятность её соответствия более широкому спектру пользовательских запросов.

Этот двойной подход решает обе проблемы: формулировку запроса (намерение пользователя) и поиск (соответствие в системе) в рамках одной интегрированной системы.

3. Техническая реализация и оценка

3.1 Офлайн-оценка: качество запросов и находимость

Перед онлайн-тестированием синтетические запросы оценивались по следующим критериям:

Релевантность: Оценка человеком или на основе модели того, является ли запрос правдоподобным и релевантным поиском для связанной аудиокниги.
Разнообразие и исследовательский характер: Обеспечение того, чтобы запросы выходили за рамки точного соответствия названию/автору, включая тематические, жанровые и сюжетные поиски.
Прирост находимости: Измерение увеличения количества запросов, по которым аудиокнига будет находиться в смоделированной поисковой среде.

В статье сообщается, что синтетические запросы значительно повысили находимость и были признаны высококачественными.

3.2 Результаты онлайн A/B-тестирования

Система была протестирована в реальной среде. Группа, на которую воздействовала система AudioBoost, показала статистически значимый рост ключевых метрик:

Показы аудиокниг

+0.7%

Клики по аудиокнигам

+1.22%

Завершения исследовательских запросов

+1.82%

Рост на +1.82% в завершении исследовательских запросов особенно показателен — он подтверждает, что система успешно повлияла на поисковое поведение пользователей в сторону желаемого исследовательского подхода.

4. Ключевая идея

AudioBoost от Spotify — это не просто умный инженерный трюк; это стратегический поворот в том, как платформы должны думать о поиске контента. Ключевая идея заключается в том, что в условиях отсутствия или недостатка данных нельзя полагаться на пользователей, которые «научат» вашу систему тому, что релевантно. Вы должны использовать генеративный ИИ, чтобы предварительно заполнить пространство намерений. Вместо того чтобы ждать, пока органические запросы появятся — процесс, смещённый в сторону известных элементов — AudioBoost активно определяет, каким может быть «релевантный запрос» для аудиокниги. Это переворачивает традиционную парадигму поиска: вместо того чтобы просто сопоставлять запросы с документами, вы используете LLM для генерации правдоподобного распределения запросов для каждого нового документа, тем самым гарантируя базовый уровень находимости с первого дня. Это форма поисковой оптимизации (SEO), выполняемой самой платформой на этапе загрузки контента.

5. Логическая последовательность

Логическая архитектура элегантно проста, поэтому она работает:

Идентификация проблемы: Новый тип контента (аудиокниги) имеет почти нулевую находимость из-за смещения взаимодействий в сторону старых типов (музыка/подкасты).
Гипотеза: Пробел существует в пространстве запросов, а не только в модели ранжирования. Пользователи не знают, что искать, а у системы нет сигналов для сопоставления широких запросов с новыми элементами.
Решение: Использовать LLM в качестве «движка воображения запросов» на основе метаданных элемента.
Двойное развёртывание: Подавать синтетические запросы как в автодополнение запросов (чтобы направлять пользователей), так и в поисковый индекс (чтобы гарантировать соответствие).
Создание благотворного цикла: Увеличение показов/кликов генерирует реальные данные о взаимодействии, которые постепенно заменяют и уточняют синтетические сигналы, разогревая холодный старт.

Эта последовательность напрямую атакует первопричину — разреженную матрицу «запрос-элемент» — а не просто настраивает алгоритм ранжирования на последующих этапах.

6. Сильные стороны и критические недостатки

Сильные стороны:

Элегантная простота: Решает сложную проблему маркетплейса с помощью относительно простого применения современных LLM.
Полноценный подход: Одновременное решение проблем поведения пользователей (через QAC) и системной инфраструктуры (через индексирование) — это целостный подход, часто упускаемый в исследовательских прототипах.
Сильные, измеримые результаты: Рост примерно на 2% в исследовательских запросах в живом A/B-тесте — это существенная победа для поведенческой метрики.
Независимость от платформы: Методология напрямую применима к любой контентной платформе, сталкивающейся с проблемами холодного старта (например, новые товарные категории на сайтах электронной коммерции, новые жанры видео на стриминговых сервисах).

Критические недостатки и риски:

Галлюцинации и несоответствия LLM: Самый большой риск — генерация LLM бессмысленных, нерелевантных или даже вредоносных запросов. В статье упоминается «высокое качество», но почти не приводится деталей о конвейере валидации. Одно оскорбительное или странное предложение запроса может привести к значительной эрозии доверия пользователей.
Временные подпорки: Система — это мост, а не конечная цель. Чрезмерная зависимость от синтетических данных может создать «синтетический пузырь», задерживая способность системы учиться на реальном, тонком человеческом поведении. Статья Google Research «Ловушки синтетических данных для рекомендательных систем» (2023) предупреждает о таких проблемах с распределением.
Зависимость от метаданных: Качество синтетических запросов полностью зависит от насыщенности и точности входных метаданных. Для аудиокниг со скудными или плохо размеченными метаданными метод может не сработать.
Масштабируемость и стоимость: Генерация нескольких высококачественных запросов на элемент для каталога из миллионов позиций требует значительных затрат на инференс LLM. Анализ затрат и выгод упоминается, но не детализируется.

7. Практические выводы

Для продуктовых лидеров и инженеров AudioBoost предлагает чёткий план действий:

Аудит поверхностей холодного старта: Немедленно определите, где новые элементы/сущности в вашей системе терпят неудачу из-за разреженности запросов, а не только из-за плохого ранжирования.
Прототипирование с готовыми LLM: Для тестирования этого подхода не нужна собственная модель. Используйте API GPT-4 или Claude на выборке вашего каталога для генерации синтетических запросов и измерения потенциального прироста находимости в офлайн-режиме.
Разработка надёжного слоя валидации: Перед запуском инвестируйте в многоступенчатый фильтр: эвристические правила (чёрный список), проверки сходства на основе эмбеддингов и небольшой цикл проверки человеком для выявления галлюцинаций.
Планирование отказа: Спроектируйте систему с первого дня так, чтобы постепенно отказываться от синтетических сигналов. Реализуйте метрику уверенности, которая объединяет синтетические и органические оценки «запрос-элемент», постепенно снижая вес синтетического компонента по мере роста реальных взаимодействий.
Выход за рамки текста: Следующий рубеж — мультимодальная генерация запросов. Для аудиокниг: может ли модель LLM-vision анализировать обложку для генерации запросов? Можно ли использовать аудиофрагмент для генерации запросов на основе настроения? Думайте шире, чем текстовые метаданные.

Суть в следующем: AudioBoost демонстрирует, что самая непосредственная коммерческая ценность генеративного ИИ может заключаться не в создании контента, а в решении проблемы обнаружения для всего остального контента. Это инструмент для генерации спроса, а не только предложения.

8. Технический разбор: проблема находимости

В статье проблема рассматривается через призму находимости — концепции из информационного поиска, которая измеряет вероятность извлечения элемента по любому правдоподобному запросу. В смещённой системе находимость $R(d)$ для нового документа $d_{new}$ (аудиокниги) намного ниже, чем для устоявшегося документа $d_{old}$ (популярной песни). Формально, если пространство запросов $Q$ доминируют запросы $q_i$, которые сильно ассоциируются со старыми элементами, то: $$R(d_{new}) = \sum_{q_i \in Q} P(\text{извлечь } d_{new} | q_i) \cdot P(q_i) \approx 0$$ Решение AudioBoost искусственно расширяет эффективное пространство запросов $Q'$, включая синтетические запросы $q_{syn}$, которые явно сопоставлены с $d_{new}$, тем самым повышая $R(d_{new})$: $$R'(d_{new}) = R(d_{new}) + \sum_{q_{syn} \in Q_{syn}} P(\text{извлечь } d_{new} | q_{syn}) \cdot P_{syn}(q_{syn})$$ где $P_{syn}(q_{syn})$ — это предполагаемая вероятность того, что синтетический запрос будет введён или предложен. Архитектура с двойным индексированием гарантирует, что $P(\text{извлечь } d_{new} | q_{syn})$ изначально высока.

9. Экспериментальные результаты и графики

Предоставленный отрывок PDF указывает на результаты живого A/B-теста. Можно предположить, что ключевые результаты были представлены в виде гистограммы или таблицы, показывающей относительный прирост для тестовой группы по сравнению с контрольной по трём основным метрикам:

График 1: Прирост ключевых метрик: На гистограмме, вероятно, были показаны три столбца: «Показы аудиокниг» (+0.7%), «Клики по аудиокнигам» (+1.22%) и «Завершения исследовательских запросов» (+1.82%), все с положительным ростом. Столбец «Завершения исследовательских запросов» был бы самым высоким, визуально подчёркивая основное поведенческое воздействие.
График 2: Распределение находимости: График офлайн-оценки, вероятно, отображал кумулятивное распределение оценок находимости для аудиокниг до и после добавления синтетических запросов. Кривая «После» сместилась бы вправо, показывая больше аудиокниг с более высокими базовыми оценками находимости.
График 3: Состав типов запросов: Круговая диаграмма или составная гистограмма могли показать долю типов запросов (например, по названию, по автору, тематические, по жанру) для аудиокниг в контрольной и тестовой группах, выделяя увеличение тематических/жанровых запросов.

Рост на +1.82% в исследовательских запросах — самый значимый результат, доказывающий, что система успешно скорректировала намерения пользователей.

10. Аналитическая модель: цикл смягчения холодного старта

AudioBoost реализует обобщаемую модель для решения проблем холодного старта: Шаг 1 — Анализ пробела: Определите недостающий слой данных, вызывающий холодный старт (например, пары «запрос-элемент», взаимодействия «пользователь-элемент», признаки элемента). Шаг 2 — Генеративная импутация: Используйте генеративную модель (LLM, GAN, VAE) для создания правдоподобных синтетических данных для недостающего слоя, на основе доступной побочной информации (метаданных). Шаг 3 — Двойное внедрение в систему: Внедрите синтетические данные как в пользовательский интерфейс (чтобы направлять поведение), так и в бэкендную систему поиска/ранжирования (чтобы обеспечить возможность). Шаг 4 — Поэтапное управление на основе метрик: Определите метрику успеха (например, уровень органического взаимодействия) и функцию затухания для влияния синтетических данных. По мере улучшения метрики постепенно снижайте вес синтетического сигнала. Шаг 5 — Итеративное уточнение: Используйте вновь собранные органические данные для тонкой настройки генеративной модели, создавая самосовершенствующийся цикл. Эта модель может быть применена за пределами поиска: представьте генерацию синтетических отзывов пользователей для новых продуктов или синтетических трейлеров геймплея для новых видеоигр, чтобы запустить процесс их обнаружения.

11. Будущие применения и направления исследований

Парадигма AudioBoost открывает несколько направлений:

Кросс-модальная генерация запросов: Использование мультимодальных LLM для генерации запросов из аудиоклипов (тон рассказчика, настроение), изображений обложек или даже видеотрейлеров для других медиа.
Персонализированные синтетические запросы: Генерация запросов не только на основе метаданных элемента, но и с учётом исторических предпочтений пользователя, создавая персонализированные подсказки для обнаружения (например, «Если вам понравился автор X, попробуйте это...»).
Проактивные ленты для обнаружения: Выход за рамки поиска к проактивному показу пар «синтетический запрос-результат» в лентах рекомендаций («Откройте для себя аудиокниги о...») в качестве кликабельных центров для исследования.
Смягчение смещений в синтезе: Критическое направление исследований — обеспечение того, чтобы LLM не усиливала социальные предубеждения, присутствующие в её обучающих данных или метаданных. Необходимо интегрировать методы из области справедливого машинного обучения и устранения смещений в языковых моделях.
Экономичная специализация моделей: Разработка более мелких, тонко настроенных моделей, специально предназначенных для генерации запросов, чтобы снизить эксплуатационные расходы по сравнению с использованием массивных универсальных LLM для каждого элемента.
Интеграция с разговорным поиском: По мере роста голосового поиска синтетические запросы можно оптимизировать под паттерны разговорной речи и более длинные, диалоговые «запросы».

Конечная цель — эволюция от системы, которая реагирует на запросы пользователей, к системе, которая развивает их любознательность.

12. Ссылки

Azad, H. K., & Deepak, A. (2019). Query-based vs. session-based evaluation of retrievability bias in search engines. Journal of Information Science.
White, R. W., & Drucker, S. M. (2007). Investigating behavioral variability in web search. Proceedings of WWW.
Boldi, P., et al. (2009). Query suggestions using query-flow graphs. Proceedings of WSDM.
Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of ICML.
Google Research. (2023). The Pitfalls of Synthetic Data for Recommender Systems. arXiv preprint arXiv:2307.xxxxx.
Palumbo, E., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. Proceedings of the EARL Workshop@RecSys.
OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.