-
#1Valutazione della Visione del Mondo dei Modelli Linguistici per la Generazione di NarrativaAnalisi della capacità degli LLM di mantenere mondi narrativi coerenti, rivelando limiti nella coerenza narrativa e nella ritenzione dello stato per la scrittura creativa.
-
#2Recupero Audio Intermodale con Query in Linguaggio NaturaleRicerca sul recupero audio tramite query in linguaggio naturale libero, introducendo nuovi benchmark e baseline per il recupero audio intermodale.
-
#3Concettualizzare l'Esperienza dell'Audiolibro: Un Quadro TeoricoAnalisi del quadro teorico per concettualizzare le differenze tra la lettura di libri stampati e l'ascolto di audiolibri, con enfasi sulle pratiche di ascolto mobile.
-
#4AudioBoost: Miglioramento della Ricerca di Audiolibri su Spotify tramite Query Sintetiche Generate da LLMAnalisi di AudioBoost, un sistema che utilizza LLM per generare query sintetiche dai metadati degli audiolibri per migliorare il recupero e i suggerimenti di ricerca nello scenario di cold-start di Spotify.
-
#5AudioBoost: Miglioramento della Scoperta degli Audiolibri nella Ricerca Spotify tramite Query Sintetiche Generate da LLMAnalisi di AudioBoost, un sistema che utilizza Large Language Models per generare query sintetiche e migliorare la recuperabilità degli audiolibri nel motore di ricerca Spotify in scenari di cold-start.
-
#6Audiobook-CC: Un Framework per la Generazione Controllabile di Audiolibri Multicast a Lungo ContestoAnalisi di Audiobook-CC, un innovativo framework di sintesi vocale per generare audiolibri multicast coerenti ed emotivamente espressivi, con controllo granulare e modellazione del contesto esteso.
-
#7Audiobook-CC: Un Framework per la Generazione Controllabile di Audiolibri Multicast a Lungo ContestoAnalisi di Audiobook-CC, un innovativo framework TTS per generare audiolibri multicast coerenti, emotivamente espressivi e contestualmente consistenti, con controllo granulare.
-
#8Analisi di 'Digital Audiobooks: New Media, Users, and Experiences' - Una Prospettiva di Media StudiesUn'analisi critica della recensione del libro 'Digital Audiobooks' che esplora la teoria della mediatizzazione, la post-fenomenologia e il panorama in evoluzione del consumo di letteratura audio.
-
#9Traduzione Automatica End-to-End di Audiolibri: Corpus, Modelli e AnalisiAnalisi di modelli end-to-end per la traduzione parlato-testo su un corpus di audiolibri arricchito, esplorando scenari di addestramento ed efficienza del modello.
-
#10Musica e Livelli di Narrazione nel Cinema: Un'Analisi NarratologicaUn'analisi approfondita della musica cinematografica attraverso la lente della narratologia, esplorando il funzionamento della musica attraverso i diversi livelli narrativi nel cinema.
-
#11Raccomandazioni Personalizzate di Audiolibri su Spotify Tramite Graph Neural NetworksIl sistema innovativo 2T-HGNN di Spotify combina Graph Neural Networks Eterogenei e modelli Two Tower per raccomandazioni scalabili di audiolibri, con un aumento del +46% del tasso di inizio ascolto.
-
#12VINA: Apprendimento dell'Ancoraggio Temporale di Articoli Istruttivi nei Video tramite NarrazioniUn approccio innovativo per l'ancoraggio temporale debolmente supervisionato di passaggi procedurali in video istruttivi mediante allineamento multimodale di frame, narrazioni e descrizioni da wikiHow.
-
#13J-MAC: Corpus Audiobook Giapponese Multi-Parlante per la Sintesi VocaleAnalisi della metodologia di costruzione del corpus J-MAC, contributi tecnici, risultati di valutazione e direzioni future per la sintesi vocale espressiva negli audiolibri.
-
#14MAMLCon: Meta-Apprendimento per la Classificazione Continua di Parole Parlate con Pochi EsempiUn nuovo approccio di meta-apprendimento (MAMLCon) che mitiga l'oblio catastrofico nell'apprendimento continuo con pochi esempi per la classificazione di parole parlate, superando metodi esistenti come OML.
-
#15Audiolibri Mobili per la Comprensione Orale in EFL: Un Quadro per Studenti UniversitariAnalisi e quadro per integrare gli Audiolibri Mobili (MAB) per sviluppare le abilità di comprensione orale in studenti universitari di EFL, vantaggi, selezione, implementazione e valutazione.
-
#16Audiolibri Mobili per la Comprensione Orale in EFL: Un Quadro per Studenti UniversitariAnalisi e quadro per integrare gli audiolibri mobili per sviluppare le abilità di comprensione orale in studenti universitari di inglese come lingua straniera (EFL).
-
#17Movie101v2: Un Benchmark Migliorato per la Generazione Automatica di Narrazioni CinematograficheAnalisi di Movie101v2, un dataset bilingue su larga scala per la narrazione cinematografica, inclusa la sua roadmap a tre fasi, valutazioni di baseline e direzioni future di ricerca.
-
#18Effetto della Musica e del Testo sul Riconoscimento della Parola Parlata: Analisi e ImplicazioniAnalisi di ricerche su come la musica di sottofondo, con e senza testo, influenzi il riconoscimento della parola parlata, con implicazioni per contesti sociali e lavori futuri.
-
#19WonderFlow: Progettazione di Video di Dati Animati Centrata sulla NarrazioneUno strumento di authoring interattivo che semplifica la creazione di video di dati animati collegando la narrazione alle animazioni dei grafici e fornendo effetti di animazione consapevoli della struttura.
-
#20Generazione di Narrazione per Video Cartoon: Formalizzazione del Compito, Dataset e ModelliUn articolo di ricerca che introduce il compito di generazione automatica di narrazione per video, presenta un nuovo dataset da Peppa Pig e propone modelli per la tempistica e la generazione del contenuto.
-
#21Un Modello Fonetico dell'Elaborazione Lessicale Orale in Lingua Non-Nativa: Analisi e ApprofondimentiAnalisi di un modello computazionale che esplora il ruolo della percezione fonetica nell'elaborazione di parole non-native, sfidando le spiegazioni fonologiche tradizionali.
-
#22Embedding Fonetico e Semantico di Parole Parlate con Applicazioni nel Recupero di Contenuti AudioUn framework a due stadi per creare rappresentazioni vettoriali di parole parlate che integrano informazioni fonetiche e semantiche, abilitando un recupero avanzato di documenti audio oltre il semplice matching di termini.
-
#23Analisi Prosodica degli Audiolibri: Modelli NLP per un Text-to-Speech MiglioratoRicerca sulla previsione degli attributi prosodici (tono, volume, velocità) dal testo narrativo utilizzando NLP e modelli linguistici, per migliorare la sintesi vocale nella generazione di audiolibri.
-
#24Classificazione di Narratori Inaffidabili con Modelli Linguistici di Grande DimensioneRicerca sull'identificazione computazionale di narratori inaffidabili tramite LLM, con dataset TUN A e classificazione di inaffidabilità intra-narrativa, inter-narrativa e inter-testuale.
-
#25Rilevamento di Azioni Debole Supervisionato Guidato da Narrazione AudioUn articolo di ricerca che esplora come utilizzare la narrazione audio rumorosa come supervisione debole per addestrare modelli di rilevamento di azioni, riducendo i costi di annotazione sfruttando caratteristiche video multimodali.
-
#26MultiActor-Audiobook: Generazione Zero-Shot con Multipli SpeakerApproccio zero-shot per generare audiolibri espressivi usando persone multimodali e istruzioni basate su LLM, eliminando costosi training e annotazioni manuali.
-
#27MultiActor-Audiobook: Generazione Zero-Shot con Volti e VociAnalisi tecnica di MultiActor-Audiobook, un innovativo sistema zero-shot per generare audiolibri espressivi utilizzando persone multimodali e istruzioni basate su LLM.
Ultimo aggiornamento: 2026-02-25 12:01:15