-
#1Narración Colaborativa con Actores Humanos y Narradores de IA: Análisis de un Informe de EventoAnálisis del uso de GPT-3 como co-narrador en teatro de improvisación en vivo. Cubre metodología, retroalimentación del público/actores e implicaciones para la colaboración creativa humano-IA.
-
#2audio-novel - Documentación Técnica y RecursosDocumentación técnica completa y recursos sobre la tecnología y aplicaciones de audio-novel.
-
#3Recuperación de Audio Multimodal con Consultas en Lenguaje NaturalInvestigación sobre recuperación de audio usando consultas de lenguaje natural libre, introduciendo nuevos benchmarks y líneas base para recuperación multimodal de audio.
-
#4AudioBoost: Mejora del Descubrimiento de Audiolibros en la Búsqueda de Spotify mediante Consultas Sintéticas Generadas por LLMAnálisis de AudioBoost, un sistema que utiliza LLM para generar consultas sintéticas a partir de metadatos de audiolibros, mejorando la recuperación y sugerencias de búsqueda en el escenario de arranque en frío de Spotify.
-
#5Audiobook-CC: Un Marco para la Generación Controlable de Audiolibros Multicast de Contexto LargoAnálisis de Audiobook-CC, un novedoso marco de síntesis de voz para generar audiolibros multicast coherentes y expresivos, con control detallado y modelado de contexto largo.
-
#6Audiobook-CC: Un Marco de Trabajo para la Generación Controlable de Audiolibros Multicast de Contexto LargoAnálisis de Audiobook-CC, un novedoso marco de trabajo TTS para generar audiolibros multicast coherentes, expresivos emocionalmente y consistentes en contexto, con control de grano fino.
-
#7Recomendaciones Personalizadas de Audiolibros en Spotify Mediante Redes Neuronales de GrafosEl innovador sistema 2T-HGNN de Spotify combina Redes Neuronales de Grafos Heterogéneos y modelos Two Tower para recomendaciones escalables de audiolibros, logrando un aumento del +46% en la tasa de inicio.
-
#8MAMLCon: Metaaprendizaje para la Clasificación Continua de Palabras Habladas con Pocos EjemplosUn novedoso enfoque de metaaprendizaje (MAMLCon) que mitiga el olvido catastrófico en el aprendizaje continuo con pocos ejemplos para la clasificación de palabras habladas, superando a métodos existentes como OML.
-
#9Audiolibros Móviles para la Comprensión Auditiva en ILE: Un Marco para Estudiantes UniversitariosAnálisis de la integración de audiolibros móviles para desarrollar habilidades de comprensión auditiva en estudiantes universitarios de ILE, cubriendo ventajas, criterios de selección, fases pedagógicas y evaluación.
-
#10Movie101v2: Un Punto de Referencia Mejorado para la Generación Automática de Narración CinematográficaAnálisis de Movie101v2, un conjunto de datos bilingüe a gran escala para narración cinematográfica, incluyendo su hoja de ruta de tres etapas, evaluaciones de referencia y direcciones futuras de investigación.
-
#11Efecto de la Música y la Letra en el Reconocimiento de Palabras Habladas: Análisis e ImplicacionesAnálisis de cómo la música de fondo, con y sin letra, afecta el reconocimiento del habla, con implicaciones para entornos sociales y trabajo futuro.
-
#12WonderFlow: Diseño Centrado en la Narración para Vídeos de Datos AnimadosUna herramienta de autoría interactiva que simplifica la creación de vídeos de datos animados vinculando la narración a las animaciones de gráficos y proporcionando efectos de animación conscientes de la estructura.
-
#13Generación de Narración para Videos de Dibujos Animados: Formalización de la Tarea, Conjunto de Datos y ModelosEste artículo presenta la novedosa tarea de generación de narración para videos, un conjunto de datos de Peppa Pig y propone modelos para la sincronización y generación de contenido.
-
#14Un Modelo Fonético del Procesamiento Léxico Oral No Nativo: Análisis y PerspectivasAnálisis de un modelo computacional que explora el papel de la percepción fonética en el procesamiento de palabras no nativas, desafiando las explicaciones fonológicas tradicionales.
-
#15Análisis de Prosodia en Audiolibros: Modelos de PLN para una Síntesis de Voz MejoradaInvestigación sobre la predicción de atributos prosódicos (tono, volumen, ritmo) en textos narrativos mediante PLN y modelos de lenguaje, mejorando la síntesis de voz para la generación de audiolibros.
-
#16Clasificación de Narradores No Fiables con Modelos de Lenguaje a Gran EscalaInvestigación sobre identificación computacional de narradores no fiables usando LLMs, presentando el dataset TUN A y clasificación de no fiabilidad intranarrativa, internarrativa e intertextual.
-
#17Detección de Acciones Débilmente Supervisada Guiada por Narración de AudioUn artículo de investigación que explora cómo usar narraciones de audio ruidosas como supervisión débil para entrenar modelos de detección de acciones en video, reduciendo costos de anotación y aprovechando características multimodales.
-
#18MultiActor-Audiobook: Generación con Múltiples Locutores sin Entrenamiento PrevioUn enfoque sin entrenamiento previo para generar audiolibros expresivos usando personajes multimodales e instrucciones de guion basadas en LLM, eliminando costosas anotaciones manuales.
-
#19MultiActor-Audiobook: Generación Zero-Shot con Rostros y VocesAnálisis técnico de MultiActor-Audiobook, un novedoso sistema zero-shot para generar audiolibros expresivos utilizando personas de hablantes multimodales e instrucciones de guion basadas en LLM.
Última actualización: 2026-01-11 23:31:26