Selecionar idioma

AudioBoost: Aprimorando a Descoberta de Audiobooks na Pesquisa do Spotify via Consultas Sintéticas Geradas por LLM

Pesquisa sobre o uso de Modelos de Linguagem de Grande Porte para gerar consultas sintéticas visando melhorar a recuperabilidade de audiobooks no sistema de pesquisa do Spotify, abordando desafios de inicialização através do aprimoramento do auto-completar e da recuperação.
audio-novel.com | PDF Size: 0.6 MB
Avaliação: 4.5/5
Sua avaliação
Você já avaliou este documento
Capa do documento PDF - AudioBoost: Aprimorando a Descoberta de Audiobooks na Pesquisa do Spotify via Consultas Sintéticas Geradas por LLM

Índice

1. Introdução

A introdução de audiobooks pelo Spotify criou um problema significativo de inicialização (cold-start), onde novos conteúdos sofrem com baixa recuperabilidade em comparação com as ofertas consolidadas de música e podcasts. O sistema AudioBoost aborda este desafio aproveitando Modelos de Linguagem de Grande Porte (LLMs) para gerar consultas sintéticas que aprimoram tanto a formulação de consultas quanto as capacidades de recuperação.

Métricas-Chave de Desempenho

  • Impressões de Audiobooks: +0.7%
  • Cliques em Audiobooks: +1.22%
  • Completamentos de Consultas Exploratórias: +1.82%

2. Metodologia

2.1 Geração de Consultas Sintéticas

O AudioBoost utiliza LLMs condicionados com metadados do audiobook para gerar diversas consultas exploratórias abrangendo tópicos, géneros, tropos narrativos e décadas. O processo de geração segue uma abordagem estruturada de engenharia de prompts para garantir a qualidade e relevância das consultas.

2.2 Integração com Auto-Completar de Consultas

As consultas sintéticas são integradas no sistema de Auto-Completar de Consultas do Spotify para inspirar os utilizadores a digitarem consultas mais exploratórias, abordando o desajuste de vocabulário entre o comportamento de pesquisa do utilizador e o conteúdo do audiobook.

2.3 Aprimoramento do Sistema de Recuperação

As consultas geradas são indexadas no motor de pesquisa e recuperação do Spotify, criando caminhos adicionais para que os audiobooks sejam descobertos através de pesquisas mais amplas e baseadas em tópicos, e não apenas por correspondências exatas de título.

3. Implementação Técnica

3.1 Estrutura Matemática

A melhoria da recuperabilidade pode ser modelada usando a estrutura de probabilidade: $P(r|q,d) = \frac{\exp(\text{sim}(q,d))}{\sum_{d' \in D} \exp(\text{sim}(q,d'))}$ onde $q$ representa as consultas, $d$ representa os documentos e $\text{sim}$ é a função de similaridade. A geração de consultas sintéticas visa maximizar $\sum_{q \in Q_{\text{syn}}} P(r|q,d_{\text{audiobook}})$.

3.2 Implementação de Código

class AudioBoostQueryGenerator:
    def __init__(self, llm_model, metadata_fields):
        self.llm = llm_model
        self.fields = metadata_fields
    
    def generate_queries(self, audiobook_data, num_queries=10):
        prompt = self._construct_prompt(audiobook_data)
        synthetic_queries = self.llm.generate(
            prompt=prompt,
            max_tokens=50,
            num_return_sequences=num_queries
        )
        return self._filter_queries(synthetic_queries)
    
    def _construct_prompt(self, data):
        return f"""Generate diverse search queries for audiobook:
        Title: {data['title']}
        Author: {data['author']}
        Genre: {data['genre']}
        Themes: {data['themes']}
        Generate exploratory queries about topics, similar books, mood:"""

4. Resultados Experimentais

4.1 Avaliação Offline

A avaliação offline demonstrou melhorias significativas nas métricas de recuperabilidade de audiobooks. As consultas sintéticas aumentaram a cobertura em 35% em comparação com o uso apenas de consultas orgânicas, com pontuações de qualidade superiores a 0,85 em escalas de avaliação humana.

4.2 Teste A/B Online

O teste A/B online, envolvendo milhões de utilizadores, mostrou melhorias estatisticamente significativas: +0,7% nas impressões de audiobooks, +1,22% nos cliques em audiobooks e +1,82% nas conclusões de consultas exploratórias, validando a eficácia da abordagem AudioBoost.

5. Aplicações Futuras

A metodologia AudioBoost pode ser estendida para outros cenários de inicialização (cold-start) em plataformas de conteúdo, incluindo novos programas de podcast, géneros musicais emergentes e conteúdo de vídeo. Trabalhos futuros incluem a personalização de consultas sintéticas com base no histórico de audição do utilizador e a integração da compreensão de conteúdo multimodal.

Análise de Especialista: O Dilema da Inicialização na Descoberta de Conteúdo

O AudioBoost representa uma solução pragmática para um dos problemas mais persistentes nos sistemas de recomendação: o dilema da inicialização (cold-start). A abordagem preenche inteligentemente a lacuna entre as interações limitadas dos utilizadores e a descoberta abrangente de conteúdo, utilizando LLMs como proxies sintéticos do utilizador. Esta metodologia alinha-se com técnicas semelhantes em visão computacional, onde a tradução de domínio no estilo CycleGAN foi usada para gerar dados de treino para classes sub-representadas [Zhu et al., 2017].

A implementação técnica demonstra uma compreensão sofisticada da dinâmica do ecossistema de pesquisa. Ao visar simultaneamente a formulação de consultas (através do QAC) e a recuperação, o AudioBoost cria um ciclo virtuoso onde sugestões melhoradas levam a melhores consultas, que por sua vez melhoram o desempenho da recuperação. Esta abordagem dupla é reminiscente dos sistemas de aprendizagem por reforço onde os espaços de ação e observação são otimizados em simultâneo [Sutton & Barto, 2018].

No entanto, a contribuição mais significativa do artigo pode ser a sua demonstração da implementação prática de LLMs em sistemas de produção. Enquanto grande parte da investigação em LLMs se foca no desempenho em benchmarks, o AudioBoost mostra como estes modelos podem impulsionar métricas de negócio concretas em aplicações do mundo real. O aumento de 1,82% nas consultas exploratórias sugere que o sistema consegue orientar com sucesso o comportamento do utilizador para padrões de pesquisa mais orientados para a descoberta, abordando o desafio fundamental da inicialização.

A abordagem poderia ser ainda mais aprimorada incorporando fatores específicos do utilizador na geração de consultas, semelhante à forma como os sistemas de recomendação modernos personalizam o conteúdo com base nas preferências individuais [Ricci et al., 2011]. Adicionalmente, a integração da análise de conteúdo de áudio poderia fornecer outra dimensão para a geração de consultas, indo além dos metadados para uma compreensão real do conteúdo.

6. Referências

  1. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision.
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
  3. Ricci, F., Rokach, L., & Shapira, B. (2011). Introduction to recommender systems handbook. Springer.
  4. Palumbo, E., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. EARL Workshop@RecSys.

Perspetiva do Analista da Indústria

Direto ao Ponto: O AudioBoost não é apenas mais uma experiência de IA — é um ataque cirúrgico ao problema da inicialização (cold-start) que tem atormentado as plataformas de conteúdo durante décadas. O Spotify está a usar LLMs não como chatbots, mas como armas estratégicas para remodelar o comportamento do utilizador e a economia da descoberta de conteúdo.

Cadeia Lógica: A cadeia causal é brilhantemente concebida: interações limitadas com audiobooks → geração de consultas sintéticas → sugestões melhoradas no QAC → modificação do comportamento do utilizador → aumento de consultas exploratórias → recuperabilidade de audiobooks aprimorada → melhorias nas métricas de negócio. Isto cria um ciclo de descoberta autorreforçado que altera fundamentalmente o panorama de exposição de conteúdo.

Pontos Fortes e Fracos: A inovação mais notável é a implementação dupla tanto no sistema de sugestão de consultas como no de recuperação — a maioria das empresas pararia num ou noutro. O aumento de 1,82% nas consultas exploratórias demonstra uma mudança real de comportamento, e não apenas uma otimização algorítmica. No entanto, a abordagem corre o risco de criar um ecossistema de consultas artificial, desligado da intenção genuína do utilizador, e o artigo não aborda a potencial degradação da qualidade das consultas ao longo do tempo.

Implicações para Ação: Para os líderes de produto: isto demonstra que as aplicações de LLM devem focar-se em intervenções a nível de ecossistema, e não em soluções pontuais. Para os engenheiros: a verdadeira lição está na produção de técnicas académicas — reparem como usaram métricas estabelecidas em vez de perseguir novos quadros de avaliação. A próxima fronteira será a personalização destas consultas sintéticas, mantendo ao mesmo tempo a diversidade da descoberta.