Содержание
1. Введение
Spotify, ведущая платформа потокового аудио, обслуживающая сотни миллионов пользователей, недавно расширила свой каталог, включив аудиокниги наряду с уже существующими предложениями музыки и подкастов. Этот стратегический шаг создает значительные проблемы для персонализированных рекомендаций из-за разреженности данных, проблем холодного старта и высоких ставок рекомендаций аудиокниг в рамках первоначальных моделей прямых продаж.
Основные выявленные проблемы включают:
- Крайняя нехватка данных для нового типа контента
- Более высокая терпимость пользователей к риску из-за модели покупки
- Ограниченные явные сигналы положительного взаимодействия
- Требования к масштабируемости для миллионов пользователей
+46%
Рост показателя начала прослушивания новых аудиокниг
+23%
Увеличение показателей потокового воспроизведения
20%
Годовой рост потребления аудиокниг
2. Методология
2.1 Гетерогенные графовые нейронные сети
Система 2T-HGNN использует гетерогенные графы, содержащие несколько типов узлов (пользователи, аудиокниги, подкасты, музыкальные треки) и типов отношений. Отделяя пользователей от структуры графа, система достигает значительного снижения сложности при сохранении качества рекомендаций.
2.2 Двухбашенная архитектура
Двухбашенная модель разделяет представления пользователей и элементов, обеспечивая эффективные вычисления сходства и рекомендации в реальном времени. Эта архитектура гарантирует низкую задержку при работе с масштабом пользовательской базы Spotify.
2.3 Многоканальный сэмплер соседей
Инновационная техника сэмплинга, которая эффективно обрабатывает несколько типов отношений в гетерогенном графе, решая проблему разреженности данных за счет использования отношений между различными типами контента.
3. Техническая реализация
3.1 Математическая формулировка
Основное распространение GNN может быть представлено как:
$h_v^{(l+1)} = \sigma\left(\sum_{r\in R}\sum_{u\in N_v^r}\frac{1}{c_{v,r}}W_r^{(l)}h_u^{(l)} + W_0^{(l)}h_v^{(l)}\right)$
Где $h_v^{(l)}$ представляет эмбеддинг узла $v$ на слое $l$, $R$ — множество типов отношений, $N_v^r$ обозначает соседей $v$ при отношении $r$, а $c_{v,r}$ — константа нормализации.
3.2 Реализация кода
class TwoTowerHGNN(nn.Module):
def __init__(self, hidden_dim, num_relations):
super().__init__()
self.user_tower = nn.Sequential(
nn.Linear(user_feat_dim, hidden_dim),
nn.ReLU(),
nn.Linear(hidden_dim, hidden_dim)
)
self.item_tower = HGNNLayer(hidden_dim, num_relations)
def forward(self, user_features, item_graph):
user_emb = self.user_tower(user_features)
item_emb = self.item_tower(item_graph)
return user_emb, item_emb
class MultiLinkNeighborSampler:
def sample_neighbors(self, nodes, relation_types, fanouts):
sampled_neighbors = {}
for relation in relation_types:
neighbors = self.graph.sample_neighbors(
nodes, relation, fanouts[relation])
sampled_neighbors[relation] = neighbors
return sampled_neighbors
4. Результаты экспериментов
Система 2T-HGNN была протестирована на миллионах пользователей Spotify, продемонстрировав значительные улучшения производительности:
- +46% увеличение показателя начала прослушивания новых аудиокниг по сравнению с базовыми методами
- +23% улучшение показателей потокового воспроизведения для рекомендуемого контента
- Значительные положительные побочные эффекты на устоявшиеся продукты, такие как подкасты
- Снижение задержки вывода на 40% по сравнению с традиционными подходами GNN
Диаграмма архитектуры системы иллюстрирует поток от построения гетерогенного графа через многоканальный сэмплинг до генерации окончательных рекомендаций, показывая, как предпочтения пользователей в музыке и подкастах используются для решения проблем холодного старта аудиокниг.
5. Критический анализ
Перспектива отраслевого аналитика
Прямо в суть (Cutting to the Chase)
2T-HGNN от Spotify — это не просто еще одна система рекомендаций — это стратегический мастер-ход, превращающий разреженность данных из недостатка в оружие. Используя межконтентные отношения, они по сути создали мост рекомендаций, который позволяет существующим пользовательским предпочтениям в музыке и подкастах запускать совершенно новую продуктовую категорию. Это фундаментально умнее, чем рассматривать аудиокниги как изолированную проблему рекомендаций.
Логическая цепочка (Logical Chain)
Техническая логика элегантна: проблема холодного старта → Использование существующих пользовательских предпочтений → Построение гетерогенного графа → Использование GNN для распространения предпочтений → Отделение пользователей для масштабируемости → Достижение межконтентных рекомендаций. Особенно умно то, как они адаптировали методы из основополагающих работ, таких как GraphSAGE Hamilton et al. и статьи GCN Kipf & Welling, но с ключевыми модификациями для промышленного развертывания. В отличие от традиционных подходов, которые борются с новыми типами контента, эта система фактически получает силу от существующего разнообразия платформы.
Сильные и слабые стороны (Highlights & Pain Points)
Сильные стороны: Улучшение показателя начала прослушивания на +46% ошеломляет для новой категории контента. Архитектурное решение отделить пользователей от графа показывает глубокое понимание ограничений масштабируемости. Многоканальный сэмплер действительно инновационен — он напоминает подход Google DeepMind к моделированию сложных отношений, но примененный к практическим бизнес-проблемам.
Слабые стороны: В статье умалчиваются вычислительные затраты — обучение гетерогенных GNN в масштабе Spotify — недешевое удовольствие. Также ограниченно обсуждается, как система обрабатывает проблему "фильтрующего пузыря", которая преследует многие системы рекомендаций. В отличие от хорошо документированных мер разнообразия Netflix, подход Spotify, кажется, сильно оптимизирован под метрики вовлеченности, которые могут усиливать существующие предпочтения, а не расширять горизонты пользователей.
Практические выводы (Actionable Insights)
Для конкурентов: Эра изолированных систем рекомендаций закончилась. Amazon Audible должен быть в ужасе — Spotify продемонстрировал, как экосистемы платформ могут быть использованы для быстрого доминирования в новых категориях контента. Для практиков: Подход с отделенными пользователями должен стать стандартной практикой для крупномасштабных реализаций GNN. Исследовательскому сообществу следует принять к сведению — это представляет одно из самых успешных на сегодняшний день реальных применений гетерогенных GNN, сопоставимое по масштабу с развертыванием GNN в Pinterest.
Особую значимость этому придает то, как это согласуется с более широкими тенденциями в графовом обучении. Как отмечено в всестороннем обзоре GNN Zhou et al., способность обрабатывать гетерогенные информационные сети становится crucial для реальных приложений. Подход Spotify демонстрирует, как теоретические достижения в графовом представлении обучения могут быть переведены в конкретную бизнес-ценность, подобно тому, как Uber использовал GNN для прогнозирования ETA или как Alibaba использует их для рекомендаций товаров.
6. Перспективные применения
Архитектура 2T-HGNN имеет значительный потенциал за пределами рекомендаций аудиокниг:
- Кросс-доменные рекомендации: Расширение на видео, статьи и другие типы медиа
- Динамические обновления графа: Адаптация в реальном времени к изменяющимся пользовательским предпочтениям
- Федеративное обучение: Конфиденциальные рекомендации без централизации пользовательских данных
- Мультимодальная интеграция: Включение аудио-функций, текстовых описаний и обложек
Будущие направления исследований включают изучение временной динамики пользовательских предпочтений, включение графов знаний для понимания контента и разработку более эффективных алгоритмов сэмплинга для графов миллиардного масштаба.
7. Ссылки
- Hamilton, W., Ying, Z., & Leskovec, J. (2017). Inductive Representation Learning on Large Graphs. NeurIPS.
- Kipf, T. N., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. ICLR.
- Zhou, J., et al. (2020). Graph Neural Networks: A Review of Methods and Applications. AI Open.
- Rendle, S., et al. (2020). Neural Collaborative Filtering vs. Matrix Factorization Revisited. RecSys.
- Wang, X., et al. (2019). Heterogeneous Graph Attention Network. WWW.
- Spotify Technology S.A. (2023). Quarterly Financial Results.
- Audio Publishers Association. (2023). Annual Audiobook Sales Survey.