AudioBoost: Улучшение поиска аудиокниг в Spotify с помощью синтетических запросов, генерируемых LLM

Содержание

1. Введение и постановка проблемы
2. Система AudioBoost
3. Техническая реализация и оценка
4. Ключевые выводы и аналитическая перспектива
5. Технические детали и математическая модель
6. Фреймворк анализа: кейс-стади без кода
7. Будущие применения и направления исследований
8. Ссылки

1. Введение и постановка проблемы

Выход Spotify на рынок аудиокниг создал классическую проблему холодного старта. Поисковые и рекомендательные системы платформы, годами оптимизированные для музыки и подкастов, столкнулись с сильной предвзятостью в доступности нового типа контента. Пользователи не привыкли искать аудиокниги, а у систем не было достаточных данных о взаимодействиях для точного ранжирования нового контента по сравнению с устоявшимся. Это создало порочный круг: низкая видимость приводила к малому числу взаимодействий, что, в свою очередь, закрепляло плохое ранжирование. Основная задача была двойной: 1) Вдохновить пользователей вводить исследовательские, тематические запросы для аудиокниг (например, «психологические триллеры в Скандинавии») вместо конкретных названий и 2) Усилить поисковые системы для эффективной обработки этих широких, исследовательских запросов, по которым существовало мало реальных пользовательских данных.

2. Система AudioBoost

AudioBoost — это инженерный ответ Spotify на вызов холодного старта. Это не просто настройка ранжирования, а системное вмешательство, использующее синтетические данные для запуска процесса обнаружения.

2.1 Основная методология

Система использует богатые структурированные метаданные, связанные с каждой аудиокнигой (название, автор, издатель, жанр, синопсис, тропы). Эти метаданные являются исходным материалом для генерации.

2.2 Генерация синтетических запросов с помощью LLM

Большая языковая модель (LLM) получает задание сгенерировать несколько правдоподобных пользовательских поисковых запросов на основе этих метаданных. Например, для метаданных научно-фантастической аудиокниги об ИИ LLM может сгенерировать запросы вроде: «лучшие дистопические романы про ИИ», «научная фантастика о сознании», «футуристические истории о технологиях». Этот процесс искусственно создаёт «длинный хвост» поискового трафика, который естественным образом развивался бы со временем.

2.3 Стратегия двойного индексирования

Гениальность AudioBoost заключается в его двойном применении:

Автодополнение запросов (QAC): Синтетические запросы добавляются в качестве подсказок, напрямую влияя на поведение пользователей, предлагая им идеи для исследовательского поиска.
Поисковая система: Те же синтетические запросы индексируются для аудиокниги, улучшая её оценку соответствия для похожих реальных пользовательских запросов, тем самым повышая её доступность для поиска.

Это создаёт петлю положительной обратной связи: лучшие подсказки приводят к большему числу исследовательских запросов, которые затем лучше обрабатываются поисковой системой.

Ключевые результаты вкратце

Показы аудиокниг: +0.7%
Клики по аудиокнигам: +1.22%
Завершения исследовательских запросов: +1.82%

Источник: Онлайн A/B-тест, система AudioBoost

3. Техническая реализация и оценка

3.1 Метрики офлайн-оценки

Перед живым тестом качество и полезность синтетических запросов оценивались офлайн. Вероятно, использовались следующие метрики:

Релевантность запроса: Оценка человеком или моделью того, является ли сгенерированный запрос правдоподобным поиском для связанной аудиокниги.
Покрытие доступности: Измерение увеличения количества аудиокниг, появляющихся в топ-K результатах поиска для набора тестовых запросов после индексации синтетических данных.
Разнообразие и новизна: Обеспечение того, чтобы сгенерированные запросы охватывали широкий спектр поисковых намерений (тема, жанр, троп, настроение), выходящих за рамки очевидных совпадений по названию/автору.

В статье указывается, что синтетические запросы показали «высокое качество» и повысили доступность в этой офлайн-среде.

3.2 Результаты онлайн A/B-тестирования

Окончательной проверкой стало контролируемое онлайн A/B-тестирование. Тестовая группа использовала поиск с включённым AudioBoost. Результаты были статистически значимыми и имели практическое значение:

+0.7% показов аудиокниг: Больше аудиокниг появлялось в результатах поиска.
+1.22% кликов по аудиокнигам: Пользователи чаще взаимодействовали с этими результатами.
+1.82% завершений исследовательских запросов: Критически важно, что пользователи чаще использовали предлагаемые системой исследовательские запросы, что доказывает эффективность поведенческого стимулирования.

Эти метрики подтверждают, что AudioBoost успешно разорвал цикл холодного старта.

3.3 Ключевые показатели эффективности (KPI)

Выбранные KPI идеально соответствуют бизнес-целям и целям продукта: Обнаружение (Показы), Вовлечённость (Клики) и Изменение поведения запросов (Завершения исследовательских запросов).

4. Ключевые выводы и аналитическая перспектива

Ключевой вывод: AudioBoost от Spotify — это образец прикладного прагматизма в области ИИ. Он переосмысливает проблему холодного старта не как недостаток данных, а как недостаток сигнала. Вместо того чтобы ждать, пока пользователи органически создадут этот сигнал (проигрышная стратегия для нового каталога), система использует LLM для масштабного моделирования пользовательских намерений, эффективно запуская рынок. Это более сложная эволюция традиционной фильтрации на основе контента, усиленная способностью генеративного ИИ понимать и имитировать нюансы человеческого языка.

Логическая последовательность: Логика системы элегантно закольцована и самоусиливающаяся. Метаданные → Синтетические запросы → Улучшенные QAC и поиск → Вовлечённость пользователей → Реальные данные → Улучшенные модели. Это инженерный ярлык к сетевым эффектам, на которые полагаются такие платформы, как Spotify. Этот подход напоминает техники в компьютерном зрении, такие как CycleGAN (Zhu et al., 2017), которая учится переводить между доменами (например, лошади в зебры) без парных примеров. Аналогично, AudioBoost учится «переводить» между доменом метаданных аудиокниг и доменом поисковых намерений пользователей, не полагаясь изначально на парные данные взаимодействий (запрос, аудиокнига).

Сильные стороны и недостатки: Основная сила — это немедленная возможность развёртывания и воздействие, как показал положительный A/B-тест. Это низкорисковое, высокоэффективное вмешательство, работающее в рамках существующей инфраструктуры (QAC, поисковый индекс). Однако у подхода есть врождённые недостатки. Во-первых, он рискует создать «эхо-камеру синтеза» — если генерация запросов LLM предвзята или ограничена, это может сузить, а не расширить ландшафт обнаружения. Во-вторых, он потенциально отделяет поиск от подлинного интереса пользователей в краткосрочной перспективе; книга может быть найдена по синтетическому запросу, который не интересует ни одного реального пользователя. В-третьих, как отмечается в исследованиях таких институтов, как Stanford HAI, чрезмерная зависимость от синтетических данных может привести к коллапсу модели или неожиданному дрейфу, если не управлять этим тщательно с помощью петель обратной связи на реальных данных.

Практические выводы: Для продуктовых лидеров вывод ясен: Генеративный ИИ — ваше главное оружие против холодного старта. Эта схема воспроизводима в разных областях — новые продуктовые категории, новые географические рынки, новые форматы контента. Ключ в том, чтобы сосредоточиться на качестве и разнообразии генеративного процесса. Инвестируйте в промпт-инжиниринг, кураторство и валидацию синтетических результатов как в задачу инженерного уровня первого класса. Кроме того, планируйте устаревание системы; цель AudioBoost должна заключаться в ускорении сбора реальных данных, чтобы синтетический слой можно было постепенно вывести из эксплуатации или снизить его вес, перейдя к полностью органической экосистеме обнаружения. Это не постоянная костыль, а стратегический ускоритель.

5. Технические детали и математическая модель

Хотя статья не углубляется в сложные формулы, основное улучшение поиска можно концептуализировать. Пусть $R(q, d)$ — оценка релевантности документа (аудиокниги) $d$ для запроса $q$ в исходной модели. При холодном старте для аудиокниги $d_a$ и исследовательского запроса $q_e$, $R(q_e, d_a)$ низка из-за разреженности данных.

AudioBoost генерирует набор синтетических запросов $Q_s = \{q_{s1}, q_{s2}, ..., q_{sn}\}$ для $d_a$. Затем поисковая система дополняется таким образом, что новая оценка релевантности $R'(q, d)$ учитывает соответствия этим синтетическим запросам. Упрощённый вид может быть таким:

$R'(q_e, d_a) = R(q_e, d_a) + \lambda \cdot \sum_{q_s \in Q_s} \text{sim}(q_e, q_s) \cdot I(d_a, q_s)$

Где:

$\text{sim}(q_e, q_s)$ — оценка семантического сходства между исследовательским запросом пользователя и синтетическим запросом (например, из модели эмбеддингов).
$I(d_a, q_s)$ — индикатор или сила связи между $d_a$ и $q_s$ (установленная генерацией LLM).
$\lambda$ — параметр смешивания, контролирующий влияние синтетического сигнала, который должен уменьшаться по мере накопления реальных данных.

Эта модель показывает, как синтетические запросы выступают в роли моста, повышая оценку $d_a$ для $q_e$ через семантическое сходство с её предварительно сгенерированными синтетическими аналогами.

6. Фреймворк анализа: кейс-стади без кода

Сценарий: Новая стриминговая платформа «StreamFlow» запускает категорию стендап-спешлов. Она сталкивается с той же проблемой холодного старта, что и Spotify с аудиокнигами.

Применение фреймворка AudioBoost:

Определение метаданных: Для каждого спешла: Имя комика, название спешла, теги (например, наблюдательный, политический, сюрреалистичный), ключевые слова из транскрипта, год записи, атмосфера аудитории (шумная, камерная).
Определение промптов для генерации запросов: Создание промптов для LLM, например: «Для стендап-спешла от [Комик] под названием [Название] с тегами [Теги] сгенерируйте 10 разнообразных поисковых запросов, которые пользователь может ввести, чтобы найти похожий юмористический контент. Включите запросы о стиле, теме, настроении и похожих комиках.»
Генерация и индексация: Для спешла с тегами «политическая сатира», «2020-е», LLM генерирует: «смешной политический комментарий», «лучшая сатира на текущие события», «комики, похожие на [Комик]», «стендап о современном обществе». Они индексируются.
Двойное применение: Эти запросы появляются как подсказки, когда пользователь начинает вводить «комедия о...». Они также помогают найти этот спешл, когда пользователь ищет «сатирические новостные шоу».
Измерение и итерация: Отслеживание KPI: Показы спешлов, запуски воспроизведения, использование сгенерированных подсказок запросов. Использование этих реальных данных для тонкой настройки промпта LLM и постепенного уменьшения параметра $\lambda$ для старых спешлов по мере накопления просмотров.

Этот кейс-стади демонстрирует переносимость основной концепции за пределы аудиокниг.

7. Будущие применения и направления исследований

Парадигма AudioBoost открывает несколько перспективных направлений на будущее:

Кросс-модальный и мультимодальный поиск: Расширение за пределы текстовых запросов. Можно ли генерировать синтетические аудио фрагменты (например, «включи что-то, что звучит так») или визуальные мудборды из метаданных для запуска голосового или визуального поиска?
Персонализированная синтетическая генерация: Переход от универсальных синтетических запросов к генерации запросов с учётом индивидуальных профилей пользователей. Например, для пользователя, который слушает исторические подкасты, генерировать запросы к аудиокнигам вроде «исторические биографии с глубоким исследованием» вместо общих.
Динамический и адаптивный синтез: Вместо статической пакетной генерации создание системы, в которой модель генерации синтетических запросов непрерывно адаптируется на основе того, какие синтетические запросы действительно приводят к вовлечению пользователей, создавая самоулучшающуюся петлю.
Смягчение синтетической предвзятости: Основное направление исследований — разработка методов аудита и обеспечения разнообразия и справедливости запросов, генерируемых LLM, чтобы предотвратить усиление социальных или каталоговых предубеждений в процессе обнаружения. Здесь будут crucial техники из исследований алгоритмической справедливости.
Применение в корпоративном поиске: Этот метод напрямую применим к внутренним поисковым системам компаний для новых репозиториев документов, баз знаний или каталогов продуктов, где начальное поведение пользователей при поиске неизвестно.

Рубеж заключается в том, чтобы сделать процесс синтетической генерации более динамичным, персонализированным и подотчётным.

8. Ссылки

Azad, H. K., & Deepak, A. (2019). Query expansion techniques for information retrieval: A survey. Information Processing & Management, 56(5), 1698-1735.
Jiang, J. Y., et al. (2021). Understanding and predicting user search mindset. ACM Transactions on Information Systems.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). [Внешний источник - CycleGAN]
Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). On the Risks and Challenges of Synthetic Data. [Внешний источник - Исследовательский институт]
Palumbo, E., Penha, G., Liu, A., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. In Proceedings of the EARL Workshop@RecSys.
Bennett, P. N., et al. (2012). Modeling the impact of short- and long-term behavior on search personalization. In Proceedings of the 35th international ACM SIGIR conference.