Выбрать язык

Персонализированные рекомендации аудиокниг в Spotify с использованием графовых нейронных сетей

Инновационная система Spotify 2T-HGNN, сочетающая гетерогенные графовые нейронные сети и двухбашенные модели для масштабируемых рекомендаций аудиокниг с ростом показателя начала прослушивания на 46%.
audio-novel.com | PDF Size: 1.0 MB
Оценка: 4.5/5
Ваша оценка
Вы уже оценили этот документ
Обложка PDF-документа - Персонализированные рекомендации аудиокниг в Spotify с использованием графовых нейронных сетей

Содержание

1. Введение

Spotify, ведущая платформа потокового аудио, обслуживающая сотни миллионов пользователей, недавно расширила свой каталог, включив аудиокниги наряду с уже существующими предложениями музыки и подкастов. Этот стратегический шаг создает значительные проблемы для персонализированных рекомендаций из-за разреженности данных, проблем холодного старта и высоких ставок рекомендаций аудиокниг в рамках первоначальных моделей прямых продаж.

Основные выявленные проблемы включают:

  • Крайняя нехватка данных для нового типа контента
  • Более высокая терпимость пользователей к риску из-за модели покупки
  • Ограниченные явные сигналы положительного взаимодействия
  • Требования к масштабируемости для миллионов пользователей

+46%

Рост показателя начала прослушивания новых аудиокниг

+23%

Увеличение показателей потокового воспроизведения

20%

Годовой рост потребления аудиокниг

2. Методология

2.1 Гетерогенные графовые нейронные сети

Система 2T-HGNN использует гетерогенные графы, содержащие несколько типов узлов (пользователи, аудиокниги, подкасты, музыкальные треки) и типов отношений. Отделяя пользователей от структуры графа, система достигает значительного снижения сложности при сохранении качества рекомендаций.

2.2 Двухбашенная архитектура

Двухбашенная модель разделяет представления пользователей и элементов, обеспечивая эффективные вычисления сходства и рекомендации в реальном времени. Эта архитектура гарантирует низкую задержку при работе с масштабом пользовательской базы Spotify.

2.3 Многоканальный сэмплер соседей

Инновационная техника сэмплинга, которая эффективно обрабатывает несколько типов отношений в гетерогенном графе, решая проблему разреженности данных за счет использования отношений между различными типами контента.

3. Техническая реализация

3.1 Математическая формулировка

Основное распространение GNN может быть представлено как:

$h_v^{(l+1)} = \sigma\left(\sum_{r\in R}\sum_{u\in N_v^r}\frac{1}{c_{v,r}}W_r^{(l)}h_u^{(l)} + W_0^{(l)}h_v^{(l)}\right)$

Где $h_v^{(l)}$ представляет эмбеддинг узла $v$ на слое $l$, $R$ — множество типов отношений, $N_v^r$ обозначает соседей $v$ при отношении $r$, а $c_{v,r}$ — константа нормализации.

3.2 Реализация кода

class TwoTowerHGNN(nn.Module):
    def __init__(self, hidden_dim, num_relations):
        super().__init__()
        self.user_tower = nn.Sequential(
            nn.Linear(user_feat_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, hidden_dim)
        )
        self.item_tower = HGNNLayer(hidden_dim, num_relations)
        
    def forward(self, user_features, item_graph):
        user_emb = self.user_tower(user_features)
        item_emb = self.item_tower(item_graph)
        return user_emb, item_emb

class MultiLinkNeighborSampler:
    def sample_neighbors(self, nodes, relation_types, fanouts):
        sampled_neighbors = {}
        for relation in relation_types:
            neighbors = self.graph.sample_neighbors(
                nodes, relation, fanouts[relation])
            sampled_neighbors[relation] = neighbors
        return sampled_neighbors

4. Результаты экспериментов

Система 2T-HGNN была протестирована на миллионах пользователей Spotify, продемонстрировав значительные улучшения производительности:

  • +46% увеличение показателя начала прослушивания новых аудиокниг по сравнению с базовыми методами
  • +23% улучшение показателей потокового воспроизведения для рекомендуемого контента
  • Значительные положительные побочные эффекты на устоявшиеся продукты, такие как подкасты
  • Снижение задержки вывода на 40% по сравнению с традиционными подходами GNN

Диаграмма архитектуры системы иллюстрирует поток от построения гетерогенного графа через многоканальный сэмплинг до генерации окончательных рекомендаций, показывая, как предпочтения пользователей в музыке и подкастах используются для решения проблем холодного старта аудиокниг.

5. Критический анализ

Перспектива отраслевого аналитика

Прямо в суть (Cutting to the Chase)

2T-HGNN от Spotify — это не просто еще одна система рекомендаций — это стратегический мастер-ход, превращающий разреженность данных из недостатка в оружие. Используя межконтентные отношения, они по сути создали мост рекомендаций, который позволяет существующим пользовательским предпочтениям в музыке и подкастах запускать совершенно новую продуктовую категорию. Это фундаментально умнее, чем рассматривать аудиокниги как изолированную проблему рекомендаций.

Логическая цепочка (Logical Chain)

Техническая логика элегантна: проблема холодного старта → Использование существующих пользовательских предпочтений → Построение гетерогенного графа → Использование GNN для распространения предпочтений → Отделение пользователей для масштабируемости → Достижение межконтентных рекомендаций. Особенно умно то, как они адаптировали методы из основополагающих работ, таких как GraphSAGE Hamilton et al. и статьи GCN Kipf & Welling, но с ключевыми модификациями для промышленного развертывания. В отличие от традиционных подходов, которые борются с новыми типами контента, эта система фактически получает силу от существующего разнообразия платформы.

Сильные и слабые стороны (Highlights & Pain Points)

Сильные стороны: Улучшение показателя начала прослушивания на +46% ошеломляет для новой категории контента. Архитектурное решение отделить пользователей от графа показывает глубокое понимание ограничений масштабируемости. Многоканальный сэмплер действительно инновационен — он напоминает подход Google DeepMind к моделированию сложных отношений, но примененный к практическим бизнес-проблемам.

Слабые стороны: В статье умалчиваются вычислительные затраты — обучение гетерогенных GNN в масштабе Spotify — недешевое удовольствие. Также ограниченно обсуждается, как система обрабатывает проблему "фильтрующего пузыря", которая преследует многие системы рекомендаций. В отличие от хорошо документированных мер разнообразия Netflix, подход Spotify, кажется, сильно оптимизирован под метрики вовлеченности, которые могут усиливать существующие предпочтения, а не расширять горизонты пользователей.

Практические выводы (Actionable Insights)

Для конкурентов: Эра изолированных систем рекомендаций закончилась. Amazon Audible должен быть в ужасе — Spotify продемонстрировал, как экосистемы платформ могут быть использованы для быстрого доминирования в новых категориях контента. Для практиков: Подход с отделенными пользователями должен стать стандартной практикой для крупномасштабных реализаций GNN. Исследовательскому сообществу следует принять к сведению — это представляет одно из самых успешных на сегодняшний день реальных применений гетерогенных GNN, сопоставимое по масштабу с развертыванием GNN в Pinterest.

Особую значимость этому придает то, как это согласуется с более широкими тенденциями в графовом обучении. Как отмечено в всестороннем обзоре GNN Zhou et al., способность обрабатывать гетерогенные информационные сети становится crucial для реальных приложений. Подход Spotify демонстрирует, как теоретические достижения в графовом представлении обучения могут быть переведены в конкретную бизнес-ценность, подобно тому, как Uber использовал GNN для прогнозирования ETA или как Alibaba использует их для рекомендаций товаров.

6. Перспективные применения

Архитектура 2T-HGNN имеет значительный потенциал за пределами рекомендаций аудиокниг:

  • Кросс-доменные рекомендации: Расширение на видео, статьи и другие типы медиа
  • Динамические обновления графа: Адаптация в реальном времени к изменяющимся пользовательским предпочтениям
  • Федеративное обучение: Конфиденциальные рекомендации без централизации пользовательских данных
  • Мультимодальная интеграция: Включение аудио-функций, текстовых описаний и обложек

Будущие направления исследований включают изучение временной динамики пользовательских предпочтений, включение графов знаний для понимания контента и разработку более эффективных алгоритмов сэмплинга для графов миллиардного масштаба.

7. Ссылки

  1. Hamilton, W., Ying, Z., & Leskovec, J. (2017). Inductive Representation Learning on Large Graphs. NeurIPS.
  2. Kipf, T. N., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. ICLR.
  3. Zhou, J., et al. (2020). Graph Neural Networks: A Review of Methods and Applications. AI Open.
  4. Rendle, S., et al. (2020). Neural Collaborative Filtering vs. Matrix Factorization Revisited. RecSys.
  5. Wang, X., et al. (2019). Heterogeneous Graph Attention Network. WWW.
  6. Spotify Technology S.A. (2023). Quarterly Financial Results.
  7. Audio Publishers Association. (2023). Annual Audiobook Sales Survey.