-
#1Recupero Audio Intermodale con Query in Linguaggio NaturaleRicerca sul recupero audio tramite query in linguaggio naturale libero, introducendo nuovi benchmark e baseline per il recupero audio intermodale.
-
#2AudioBoost: Miglioramento della Ricerca di Audiolibri su Spotify tramite Query Sintetiche Generate da LLMAnalisi di AudioBoost, un sistema che utilizza LLM per generare query sintetiche dai metadati degli audiolibri per migliorare il recupero e i suggerimenti di ricerca nello scenario di cold-start di Spotify.
-
#3Audiobook-CC: Un Framework per la Generazione Controllabile di Audiolibri Multicast a Lungo ContestoAnalisi di Audiobook-CC, un innovativo framework di sintesi vocale per generare audiolibri multicast coerenti ed emotivamente espressivi, con controllo granulare e modellazione del contesto esteso.
-
#4Audiobook-CC: Un Framework per la Generazione Controllabile di Audiolibri Multicast a Lungo ContestoAnalisi di Audiobook-CC, un innovativo framework TTS per generare audiolibri multicast coerenti, emotivamente espressivi e contestualmente consistenti, con controllo granulare.
-
#5Raccomandazioni Personalizzate di Audiolibri su Spotify Tramite Graph Neural NetworksIl sistema innovativo 2T-HGNN di Spotify combina Graph Neural Networks Eterogenei e modelli Two Tower per raccomandazioni scalabili di audiolibri, con un aumento del +46% del tasso di inizio ascolto.
-
#6VINA: Apprendimento dell'Ancoraggio Temporale di Articoli Istruttivi nei Video tramite NarrazioniUn approccio innovativo per l'ancoraggio temporale debolmente supervisionato di passaggi procedurali in video istruttivi mediante allineamento multimodale di frame, narrazioni e descrizioni da wikiHow.
-
#7MAMLCon: Meta-Apprendimento per la Classificazione Continua di Parole Parlate con Pochi EsempiUn nuovo approccio di meta-apprendimento (MAMLCon) che mitiga l'oblio catastrofico nell'apprendimento continuo con pochi esempi per la classificazione di parole parlate, superando metodi esistenti come OML.
-
#8Audiolibri Mobili per la Comprensione Orale in EFL: Un Quadro per Studenti UniversitariAnalisi dell'integrazione degli audiolibri mobili per sviluppare le abilità di comprensione orale in studenti universitari di inglese come lingua straniera, vantaggi, criteri di selezione, fasi didattiche e valutazione.
-
#9Movie101v2: Un Benchmark Migliorato per la Generazione Automatica di Narrazioni CinematograficheAnalisi di Movie101v2, un dataset bilingue su larga scala per la narrazione cinematografica, inclusa la sua roadmap a tre fasi, valutazioni di baseline e direzioni future di ricerca.
-
#10Effetto della Musica e del Testo sul Riconoscimento della Parola Parlata: Analisi e ImplicazioniAnalisi di ricerche su come la musica di sottofondo, con e senza testo, influenzi il riconoscimento della parola parlata, con implicazioni per contesti sociali e lavori futuri.
-
#11WonderFlow: Progettazione di Video di Dati Animati Centrata sulla NarrazioneUno strumento di authoring interattivo che semplifica la creazione di video di dati animati collegando la narrazione alle animazioni dei grafici e fornendo effetti di animazione consapevoli della struttura.
-
#12Generazione di Narrazione per Video Cartoon: Formalizzazione del Compito, Dataset e ModelliQuesto articolo introduce il nuovo compito di generazione di narrazione per video, presenta un dataset da Peppa Pig e propone modelli per la tempistica e la generazione del contenuto.
-
#13Un Modello Fonetico dell'Elaborazione Lessicale Orale in Lingua Non-Nativa: Analisi e ApprofondimentiAnalisi di un modello computazionale che esplora il ruolo della percezione fonetica nell'elaborazione di parole non-native, sfidando le spiegazioni fonologiche tradizionali.
-
#14Embedding Fonetico e Semantico di Parole Parlate con Applicazioni nel Recupero di Contenuti AudioUn framework a due stadi per creare rappresentazioni vettoriali di parole parlate che integrano informazioni fonetiche e semantiche, abilitando un recupero avanzato di documenti audio oltre il semplice matching di termini.
-
#15Analisi Prosodica degli Audiolibri: Modelli NLP per un Text-to-Speech MiglioratoRicerca sulla previsione degli attributi prosodici (tono, volume, velocità) dal testo narrativo utilizzando NLP e modelli linguistici, per migliorare la sintesi vocale nella generazione di audiolibri.
-
#16Classificazione di Narratori Inaffidabili con Modelli Linguistici di Grande DimensioneRicerca sull'identificazione computazionale di narratori inaffidabili tramite LLM, con dataset TUN A e classificazione di inaffidabilità intra-narrativa, inter-narrativa e inter-testuale.
-
#17Rilevamento di Azioni con Supervisione Debole Guidato da Narrazione AudioUno studio che esplora come utilizzare narrazioni audio rumorose come supervisione debole per addestrare modelli di rilevamento di azioni in video, riducendo i costi di annotazione sfruttando caratteristiche multimodali.
-
#18MultiActor-Audiobook: Generazione Zero-Shot con Multipli SpeakerApproccio zero-shot per generare audiolibri espressivi usando persone multimodali e istruzioni basate su LLM, eliminando costosi training e annotazioni manuali.
-
#19MultiActor-Audiobook: Generazione Zero-Shot con Volti e VociAnalisi tecnica di MultiActor-Audiobook, un innovativo sistema zero-shot per generare audiolibri espressivi utilizzando persone multimodali e istruzioni basate su LLM.
Ultimo aggiornamento: 2026-01-12 05:31:34