Sprache auswählen

AudioBoost: Verbesserte Auffindbarkeit von Hörbüchern in der Spotify-Suche durch LLM-generierte synthetische Suchanfragen

Forschung zur Nutzung großer Sprachmodelle zur Generierung synthetischer Suchanfragen, um die Auffindbarkeit von Hörbüchern in Spotifys Suchsystem zu verbessern und Cold-Start-Herausforderungen durch Query-Auto-Completion und Retrieval-Optimierung zu adressieren.
audio-novel.com | PDF Size: 0.6 MB
Bewertung: 4.5/5
Ihre Bewertung
Sie haben dieses Dokument bereits bewertet
PDF-Dokumentendeckel - AudioBoost: Verbesserte Auffindbarkeit von Hörbüchern in der Spotify-Suche durch LLM-generierte synthetische Suchanfragen

Inhaltsverzeichnis

1. Einleitung

Die Einführung von Hörbüchern bei Spotify führte zu einem erheblichen Cold-Start-Problem, bei dem neue Inhalte im Vergleich zu etablierten Musik- und Podcast-Angeboten eine geringere Auffindbarkeit aufweisen. Das AudioBoost-System adressiert diese Herausforderung durch den Einsatz großer Sprachmodelle zur Generierung synthetischer Suchanfragen, die sowohl die Suchformulierung als auch die Retrieval-Fähigkeiten verbessern.

Wichtige Leistungskennzahlen

  • Hörbuch-Impressionen: +0,7 %
  • Hörbuch-Klicks: +1,22 %
  • Explorative Suchanfragen-Vervollständigungen: +1,82 %

2. Methodik

2.1 Generierung synthetischer Suchanfragen

AudioBoost nutzt LLMs, die auf Hörbuch-Metadaten konditioniert sind, um vielfältige explorative Suchanfragen zu generieren, die Themen, Genres, Erzähltropen und Jahrzehnte abdecken. Der Generierungsprozess folgt einem strukturierten Prompt-Engineering-Ansatz, um Qualität und Relevanz der Suchanfragen sicherzustellen.

2.2 Integration in die Query-Auto-Completion

Synthetische Suchanfragen werden in Spotifys Query-Auto-Completion-System integriert, um Nutzer dazu zu inspirieren, mehr explorative Suchanfragen einzugeben, und so die Vokabellücke zwischen Nutzer-Suchverhalten und Hörbuch-Inhalten zu schließen.

2.3 Verbesserung des Retrieval-Systems

Die generierten Suchanfragen werden in Spotifys Such-Retrieval-Engine indexiert und schaffen so zusätzliche Wege, um Hörbücher durch breitere, themenbasierte Suchen zu entdecken, anstatt nur über exakte Titelübereinstimmungen.

3. Technische Implementierung

3.1 Mathematisches Framework

Die Verbesserung der Auffindbarkeit kann mit dem Wahrscheinlichkeitsframework modelliert werden: $P(r|q,d) = \frac{\exp(\text{sim}(q,d))}{\sum_{d' \in D} \exp(\text{sim}(q,d'))}$, wobei $q$ Suchanfragen, $d$ Dokumente und $\text{sim}$ die Ähnlichkeitsfunktion repräsentiert. Die Generierung synthetischer Suchanfragen zielt darauf ab, $\sum_{q \in Q_{\text{syn}}} P(r|q,d_{\text{audiobook}})$ zu maximieren.

3.2 Code-Implementierung

class AudioBoostQueryGenerator:
    def __init__(self, llm_model, metadata_fields):
        self.llm = llm_model
        self.fields = metadata_fields
    
    def generate_queries(self, audiobook_data, num_queries=10):
        prompt = self._construct_prompt(audiobook_data)
        synthetic_queries = self.llm.generate(
            prompt=prompt,
            max_tokens=50,
            num_return_sequences=num_queries
        )
        return self._filter_queries(synthetic_queries)
    
    def _construct_prompt(self, data):
        return f"""Generate diverse search queries for audiobook:
        Title: {data['title']}
        Author: {data['author']}
        Genre: {data['genre']}
        Themes: {data['themes']}
        Generate exploratory queries about topics, similar books, mood:"""

4. Experimentelle Ergebnisse

4.1 Offline-Evaluation

Die Offline-Evaluation zeigte signifikante Verbesserungen bei den Metriken zur Hörbuch-Auffindbarkeit. Die synthetischen Suchanfragen steigerten die Abdeckung um 35 % im Vergleich zu rein organischen Suchanfragen, wobei die Qualitätsbewertungen in menschlichen Bewertungsskalen 0,85 überschritten.

4.2 Online-A/B-Testing

Der Online-A/B-Test mit Millionen von Nutzern zeigte statistisch signifikante Verbesserungen: +0,7 % bei Hörbuch-Impressionen, +1,22 % bei Hörbuch-Klicks und +1,82 % bei der Vervollständigung explorativer Suchanfragen, was die Wirksamkeit des AudioBoost-Ansatzes validiert.

5. Zukünftige Anwendungen

Die AudioBoost-Methodik kann auf andere Cold-Start-Szenarien in Content-Plattformen ausgeweitet werden, einschließlich neuer Podcast-Shows, aufstrebender Musikgenres und Videoinhalte. Zukünftige Arbeiten umfassen die Personalisierung synthetischer Suchanfragen basierend auf der Hörhistorie der Nutzer und die Integration von multimodalem Content-Verständnis.

Expertenanalyse: Das Cold-Start-Dilemma in der Content-Entdeckung

AudioBoost stellt eine pragmatische Lösung für eines der hartnäckigsten Probleme in Empfehlungssystemen dar: das Cold-Start-Dilemma. Der Ansatz überbrückt geschickt die Lücke zwischen begrenzten Nutzerinteraktionen und umfassender Content-Entdeckung, indem LLMs als synthetische Nutzer-Stellvertreter eingesetzt werden. Diese Methodik steht im Einklang mit ähnlichen Techniken in der Computer Vision, bei denen CycleGAN-artige Domänentranslation zur Generierung von Trainingsdaten für unterrepräsentierte Klassen verwendet wurde [Zhu et al., 2017].

Die technische Implementierung zeigt ein ausgefeiltes Verständnis der Dynamik von Suchökosystemen. Indem AudioBoost sowohl die Suchformulierung (durch QAC) als auch das Retrieval gleichzeitig adressiert, schafft es einen positiven Kreislauf, in dem verbesserte Vorschläge zu besseren Suchanfragen führen, die wiederum die Retrieval-Leistung verbessern. Dieser duale Ansatz erinnert an Reinforcement-Learning-Systeme, bei denen Aktions- und Beobachtungsräume gleichzeitig optimiert werden [Sutton & Barto, 2018].

Der bedeutendste Beitrag der Arbeit könnte jedoch die Demonstration des praktischen LLM-Einsatzes in Produktionssystemen sein. Während sich viel LLM-Forschung auf Benchmark-Leistung konzentriert, zeigt AudioBoost, wie diese Modelle konkrete Geschäftsmetriken in realen Anwendungen vorantreiben können. Die Steigerung explorativer Suchanfragen um +1,82 % deutet darauf hin, dass das System das Nutzerverhalten erfolgreich in Richtung entdeckungsorientierter Suchmuster lenkt und damit die grundlegende Cold-Start-Herausforderung adressiert.

Der Ansatz könnte weiter verbessert werden, indem nutzerspezifische Faktoren in die Suchanfragen-Generierung einbezogen werden, ähnlich wie moderne Empfehlungssysteme Inhalte basierend auf individuellen Präferenzen personalisieren [Ricci et al., 2011]. Zusätzlich könnte die Integration von Audioinhaltsanalysen eine weitere Dimension für die Suchanfragen-Generierung bieten, die über Metadaten hinaus zu einem tatsächlichen Inhaltsverständnis gelangt.

6. Referenzen

  1. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision.
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
  3. Ricci, F., Rokach, L., & Shapira, B. (2011). Introduction to recommender systems handbook. Springer.
  4. Palumbo, E., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. EARL Workshop@RecSys.

Branchenanalysten-Perspektive

Punktgenau: AudioBoost ist nicht nur ein weiteres KI-Experiment – es ist ein gezielter Schlag gegen das Cold-Start-Problem, das Content-Plattformen seit Jahrzehnten plagt. Spotify setzt LLMs nicht als Chatbots ein, sondern als strategische Waffen, um das Nutzerverhalten und die Ökonomie der Content-Entdeckung neu zu gestalten.

Kausalkette: Die Kausalkette ist brillant konstruiert: begrenzte Hörbuch-Interaktionen → Generierung synthetischer Suchanfragen → verbesserte QAC-Vorschläge → Modifikation des Nutzerverhaltens → erhöhte explorative Suchanfragen → verbesserte Hörbuch-Auffindbarkeit → Verbesserung der Geschäftsmetriken. Dies schafft einen sich selbst verstärkenden Entdeckungskreislauf, der die Content-Exposure-Landschaft grundlegend verändert.

Stärken und Schwächen: Die herausragende Innovation ist der duale Einsatz sowohl im Suchvorschlags- als auch im Retrieval-System – die meisten Unternehmen würden bei einem von beiden aufhören. Die Steigerung explorativer Suchanfragen um 1,82 % demonstriert eine tatsächliche Verhaltensänderung, nicht nur eine algorithmische Optimierung. Allerdings riskiert der Ansatz die Schaffung eines künstlichen Suchanfragen-Ökosystems, das vom echten Nutzerintent entkoppelt ist, und die Arbeit adressiert nicht die potenzielle Verschlechterung der Suchanfragen-Qualität über die Zeit.

Handlungsimplikationen: Für Produktverantwortliche: Dies demonstriert, dass sich LLM-Anwendungen auf Eingriffe auf Ökosystemebene konzentrieren sollten, nicht auf punktuelle Lösungen. Für Ingenieure: Die wahre Lektion liegt in der Produktivsetzung akademischer Techniken – beachten Sie, wie sie etablierte Metriken verwendeten, anstatt neuen Evaluierungsframeworks nachzujagen. Die nächste Grenze wird die Personalisierung dieser synthetischen Suchanfragen bei gleichzeitiger Wahrung der Entdeckungsvielfalt sein.