-
#1audio-novel - Documentação Técnica e RecursosDocumentação técnica abrangente e recursos sobre a tecnologia e aplicações de audio-novel.
-
#2Recuperação de Áudio Transmodal com Consultas em Linguagem NaturalInvestigação sobre recuperação de áudio usando consultas em linguagem natural livre, introduzindo novos benchmarks e linhas de base para recuperação transmodal de áudio.
-
#3AudioBoost: Aprimorando a Descoberta de Audiolivros na Pesquisa do Spotify via Consultas Sintéticas Geradas por LLMAnálise do AudioBoost, um sistema que usa LLMs para gerar consultas sintéticas a partir de metadados de audiolivros, melhorando a recuperação e sugestões de pesquisa no cenário de arranque a frio do Spotify.
-
#4Audiobook-CC: Uma Estrutura para Geração Controlada de Audiobooks Multicast de Longo ContextoAnálise do Audiobook-CC, uma nova estrutura de síntese de fala para gerar audiobooks multicast coerentes e expressivos emocionalmente, com controle refinado e modelagem de longo contexto.
-
#5Audiobook-CC: Uma Estrutura para Geração Controlada de Audiobooks Multicast de Longo ContextoAnálise do Audiobook-CC, uma nova estrutura TTS para gerar audiobooks multicast coerentes, expressivos emocionalmente e contextualmente consistentes com controle refinado.
-
#6Recomendações Personalizadas de Audiobooks na Spotify Através de Redes Neurais em GrafosSistema inovador 2T-HGNN da Spotify combina Redes Neurais em Grafos Heterogêneos e modelos Two Tower para recomendações escaláveis de audiobooks, alcançando +46% na taxa de início.
-
#7MAMLCon: Meta-Aprendizagem para Classificação Contínua de Palavras Faladas com Poucos ExemplosUma nova abordagem de meta-aprendizagem (MAMLCon) que mitiga o esquecimento catastrófico na aprendizagem contínua com poucos exemplos para classificação de palavras faladas, superando métodos existentes como o OML.
-
#8Audiolivros Móveis para a Compreensão Auditiva em ILE: Um Quadro para Estudantes UniversitáriosAnálise da integração de audiolivros móveis para desenvolver competências de compreensão auditiva em estudantes universitários de ILE, abrangendo vantagens, critérios de seleção, fases de ensino e avaliação.
-
#9Movie101v2: Um Benchmark Aprimorado para Geração Automática de Narração CinematográficaAnálise do Movie101v2, um conjunto de dados bilíngue de grande escala para narração de filmes, incluindo seu roteiro de tarefas em três estágios, avaliações de linha de base e direções futuras de pesquisa.
-
#10Efeito da Música e das Letras no Reconhecimento da Fala: Análise e ImplicaçõesAnálise de investigação sobre como a música de fundo, com e sem letra, impacta o reconhecimento da fala, com implicações para contextos sociais e trabalhos futuros.
-
#11WonderFlow: Design Centrado na Narração para Vídeos de Dados AnimadosUma ferramenta de autoria interativa que simplifica a criação de vídeos de dados animados, ligando a narração às animações dos gráficos e fornecendo efeitos de animação conscientes da estrutura.
-
#12Geração de Narração para Vídeos de Desenho Animado: Formalização da Tarefa, Conjunto de Dados e ModelosEste artigo introduz a nova tarefa de geração de narração para vídeos, apresenta um conjunto de dados da Peppa Pig e propõe modelos para temporização e geração de conteúdo.
-
#13Um Modelo Fonético do Processamento de Palavras Faladas por Não Nativos: Análise e PerspetivasAnálise de um modelo computacional que explora o papel da perceção fonética no processamento de palavras por não nativos, desafiando explicações fonológicas tradicionais.
-
#14Incorporação Fonética e Semântica de Palavras Faladas com Aplicações na Recuperação de Conteúdo FaladoUma estrutura de duas etapas para incorporar palavras faladas com informação fonética e semântica, permitindo uma recuperação avançada de documentos falados que vai além da simples correspondência de termos.
-
#15Análise de Prosódia em Audiolivros: Modelos de PLN para Síntese de Voz AprimoradaInvestigação sobre a previsão de atributos de prosódia (tom, volume, ritmo) em textos narrativos usando PLN e modelos de linguagem, melhorando a síntese de voz para geração de audiolivros.
-
#16Classificação de Narradores Não Confiáveis com Modelos de Linguagem de Grande PorteInvestigação sobre identificação computacional de narradores não confiáveis usando LLMs, apresentando o conjunto de dados TUN A e classificação de não confiabilidade intra-narrativa, inter-narrativa e intertextual.
-
#17Detecção de Ações com Supervisão Fraca Orientada por Narração de ÁudioUm artigo de pesquisa que explora como usar narração de áudio ruidosa como supervisão fraca para treinar modelos de detecção de ações em vídeo, reduzindo custos de anotação e aproveitando características multimodais.
-
#18MultiActor-Audiobook: Geração Zero-Shot com Múltiplos LocutoresUma abordagem zero-shot para gerar audiolivros expressivos usando personas multimodais e instruções de script baseadas em LLM, eliminando treinamento dispendioso e anotação manual.
-
#19MultiActor-Audiobook: Geração Zero-Shot com Rostos e VozesAnálise técnica do MultiActor-Audiobook, um sistema zero-shot inovador para gerar audiolivros expressivos usando personas multimodais e instruções de roteiro baseadas em LLM.
Última atualização: 2026-01-11 23:31:27