Seleccionar idioma

AudioBoost: Mejora del Descubrimiento de Audiolibros en la Búsqueda de Spotify mediante Consultas Sintéticas Generadas por LLM

Investigación sobre el uso de Modelos de Lenguaje Grande para generar consultas sintéticas que mejoran la recuperabilidad de audiolibros en el sistema de búsqueda de Spotify, abordando desafíos de arranque en frío mediante autocompletado de consultas y mejora de la recuperación.
audio-novel.com | PDF Size: 0.6 MB
Calificación: 4.5/5
Tu calificación
Ya has calificado este documento
Portada del documento PDF - AudioBoost: Mejora del Descubrimiento de Audiolibros en la Búsqueda de Spotify mediante Consultas Sintéticas Generadas por LLM

Tabla de Contenidos

1. Introducción

La introducción de audiolibros por parte de Spotify creó un problema significativo de arranque en frío donde el nuevo contenido sufre de baja recuperabilidad en comparación con las ofertas establecidas de música y podcasts. El sistema AudioBoost aborda este desafío aprovechando Modelos de Lenguaje Grande para generar consultas sintéticas que mejoran tanto la formulación de consultas como las capacidades de recuperación.

Métricas Clave de Rendimiento

  • Impresiones de Audiolibros: +0.7%
  • Clics en Audiolibros: +1.22%
  • Finalizaciones de Consultas Exploratorias: +1.82%

2. Metodología

2.1 Generación de Consultas Sintéticas

AudioBoost utiliza LLMs condicionados por metadatos de audiolibros para generar diversas consultas exploratorias que cubren temas, géneros, tropos narrativos y décadas. El proceso de generación sigue un enfoque estructurado de ingeniería de prompts para garantizar la calidad y relevancia de las consultas.

2.2 Integración con Autocompletado de Consultas

Las consultas sintéticas se integran en el sistema de Autocompletado de Consultas de Spotify para inspirar a los usuarios a escribir más consultas exploratorias, abordando la falta de coincidencia de vocabulario entre el comportamiento de búsqueda del usuario y el contenido de los audiolibros.

2.3 Mejora del Sistema de Recuperación

Las consultas generadas se indexan en el motor de búsqueda y recuperación de Spotify, creando vías adicionales para que los audiolibros sean descubiertos a través de búsquedas más amplias basadas en temas, en lugar de solo coincidencias exactas de títulos.

3. Implementación Técnica

3.1 Marco Matemático

La mejora en la recuperabilidad puede modelarse usando el marco de probabilidad: $P(r|q,d) = \frac{\exp(\text{sim}(q,d))}{\sum_{d' \in D} \exp(\text{sim}(q,d'))}$ donde $q$ representa consultas, $d$ representa documentos y $\text{sim}$ es la función de similitud. La generación de consultas sintéticas tiene como objetivo maximizar $\sum_{q \in Q_{\text{syn}}} P(r|q,d_{\text{audiobook}})$.

3.2 Implementación de Código

class AudioBoostQueryGenerator:
    def __init__(self, llm_model, metadata_fields):
        self.llm = llm_model
        self.fields = metadata_fields
    
    def generate_queries(self, audiobook_data, num_queries=10):
        prompt = self._construct_prompt(audiobook_data)
        synthetic_queries = self.llm.generate(
            prompt=prompt,
            max_tokens=50,
            num_return_sequences=num_queries
        )
        return self._filter_queries(synthetic_queries)
    
    def _construct_prompt(self, data):
        return f"""Generate diverse search queries for audiobook:
        Title: {data['title']}
        Author: {data['author']}
        Genre: {data['genre']}
        Themes: {data['themes']}
        Generate exploratory queries about topics, similar books, mood:"""

4. Resultados Experimentales

4.1 Evaluación Offline

La evaluación offline demostró mejoras significativas en las métricas de recuperabilidad de audiolibros. Las consultas sintéticas aumentaron la cobertura en un 35% en comparación con solo consultas orgánicas, con puntuaciones de calidad que superaron 0.85 en escalas de evaluación humana.

4.2 Pruebas A/B Online

La prueba A/B online que involucró a millones de usuarios mostró mejoras estadísticamente significativas: +0.7% en impresiones de audiolibros, +1.22% en clics de audiolibros y +1.82% en finalizaciones de consultas exploratorias, validando la efectividad del enfoque AudioBoost.

5. Aplicaciones Futuras

La metodología AudioBoost puede extenderse a otros escenarios de arranque en frío en plataformas de contenido, incluyendo nuevos programas de podcasts, géneros musicales emergentes y contenido de video. El trabajo futuro incluye personalizar consultas sintéticas basadas en el historial de escucha del usuario e integrar la comprensión de contenido multimodal.

Análisis Experto: El Dilema del Arranque en Frío en el Descubrimiento de Contenido

AudioBoost representa una solución pragmática a uno de los problemas más persistentes en los sistemas de recomendación: el dilema del arranque en frío. El enfoque conecta inteligentemente la brecha entre las interacciones limitadas de los usuarios y el descubrimiento integral de contenido aprovechando los LLMs como proxies sintéticos de usuarios. Esta metodología se alinea con técnicas similares en visión por computadora, donde la traducción de dominio estilo CycleGAN se ha utilizado para generar datos de entrenamiento para clases subrepresentadas [Zhu et al., 2017].

La implementación técnica demuestra una comprensión sofisticada de la dinámica del ecosistema de búsqueda. Al apuntar simultáneamente tanto a la formulación de consultas (a través de QAC) como a la recuperación, AudioBoost crea un ciclo virtuoso donde las sugerencias mejoradas conducen a mejores consultas, que a su vez mejoran el rendimiento de recuperación. Este enfoque dual recuerda a los sistemas de aprendizaje por refuerzo donde los espacios de acción y observación se optimizan concurrentemente [Sutton & Barto, 2018].

Sin embargo, la contribución más significativa del artículo puede ser su demostración del despliegue práctico de LLM en sistemas de producción. Mientras gran parte de la investigación en LLM se centra en el rendimiento de benchmarks, AudioBoost muestra cómo estos modelos pueden impulsar métricas comerciales concretas en aplicaciones del mundo real. El aumento del 1.82% en consultas exploratorias sugiere que el sistema logra modificar el comportamiento del usuario hacia patrones de búsqueda más orientados al descubrimiento, abordando el desafío fundamental del arranque en frío.

El enfoque podría mejorarse aún más incorporando factores específicos del usuario en la generación de consultas, similar a cómo los sistemas de recomendación modernos personalizan el contenido basándose en preferencias individuales [Ricci et al., 2011]. Adicionalmente, la integración del análisis de contenido de audio podría proporcionar otra dimensión para la generación de consultas, yendo más allá de los metadatos hacia la comprensión real del contenido.

6. Referencias

  1. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision.
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
  3. Ricci, F., Rokach, L., & Shapira, B. (2011). Introduction to recommender systems handbook. Springer.
  4. Palumbo, E., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. EARL Workshop@RecSys.

Perspectiva del Analista de la Industria

Directo al grano: AudioBoost no es solo otro experimento de IA—es un ataque quirúrgico contra el problema del arranque en frío que ha plagado a las plataformas de contenido durante décadas. Spotify está usando LLMs no como chatbots, sino como armas estratégicas para remodelar el comportamiento del usuario y la economía del descubrimiento de contenido.

Cadena causal: La cadena causal está brillantemente diseñada: interacciones limitadas con audiolibros → generación de consultas sintéticas → sugerencias mejoradas de QAC → modificación del comportamiento del usuario → aumento de consultas exploratorias → mejora de la recuperabilidad de audiolibros → mejoras en métricas comerciales. Esto crea un ciclo de descubrimiento auto-reforzante que altera fundamentalmente el panorama de exposición de contenido.

Aciertos y desaciertos: La innovación más destacada es el despliegue dual tanto en sistemas de sugerencia de consultas como de recuperación—la mayoría de las empresas se detendrían en uno u otro. El aumento del 1.82% en consultas exploratorias demuestra un cambio real de comportamiento, no solo una optimización algorítmica. Sin embargo, el enfoque corre el riesgo de crear un ecosistema artificial de consultas desvinculado de la intención genuina del usuario, y el artículo no aborda la posible degradación de la calidad de las consultas con el tiempo.

Implicaciones prácticas: Para líderes de producto: esto demuestra que las aplicaciones de LLM deberían centrarse en intervenciones a nivel de ecosistema en lugar de soluciones puntuales. Para ingenieros: la lección real está en llevar técnicas académicas a producción—nótese cómo utilizaron métricas establecidas en lugar de perseguir marcos de evaluación novedosos. La próxima frontera será personalizar estas consultas sintéticas manteniendo la diversidad de descubrimiento.