Audio-Novel: 20 Capitoli di Ricerca Avanzata su Audiolibri, IA e Recupero Audio

Lingua

#1

Valutazione della Visione del Mondo dei Modelli Linguistici per la Generazione di Narrativa

Analisi della capacità degli LLM di mantenere mondi narrativi coerenti, rivelando limiti nella coerenza narrativa e nella ritenzione dello stato per la scrittura creativa.
#2

Recupero Audio Intermodale con Query in Linguaggio Naturale

Ricerca sul recupero audio tramite query in linguaggio naturale libero, introducendo nuovi benchmark e baseline per il recupero audio intermodale.
#3

Concettualizzare l'Esperienza dell'Audiolibro: Un Quadro Teorico

Analisi del quadro teorico per concettualizzare le differenze tra la lettura di libri stampati e l'ascolto di audiolibri, con enfasi sulle pratiche di ascolto mobile.
#4

AudioBoost: Miglioramento della Ricerca di Audiolibri su Spotify tramite Query Sintetiche Generate da LLM

Analisi di AudioBoost, un sistema che utilizza LLM per generare query sintetiche dai metadati degli audiolibri per migliorare il recupero e i suggerimenti di ricerca nello scenario di cold-start di Spotify.
#5

AudioBoost: Miglioramento della Scoperta degli Audiolibri nella Ricerca Spotify tramite Query Sintetiche Generate da LLM

Analisi di AudioBoost, un sistema che utilizza Large Language Models per generare query sintetiche e migliorare la recuperabilità degli audiolibri nel motore di ricerca Spotify in scenari di cold-start.
#6

Audiobook-CC: Un Framework per la Generazione Controllabile di Audiolibri Multicast a Lungo Contesto

Analisi di Audiobook-CC, un innovativo framework di sintesi vocale per generare audiolibri multicast coerenti ed emotivamente espressivi, con controllo granulare e modellazione del contesto esteso.
#7

Audiobook-CC: Un Framework per la Generazione Controllabile di Audiolibri Multicast a Lungo Contesto

Analisi di Audiobook-CC, un innovativo framework TTS per generare audiolibri multicast coerenti, emotivamente espressivi e contestualmente consistenti, con controllo granulare.
#8

Analisi di 'Digital Audiobooks: New Media, Users, and Experiences' - Una Prospettiva di Media Studies

Un'analisi critica della recensione del libro 'Digital Audiobooks' che esplora la teoria della mediatizzazione, la post-fenomenologia e il panorama in evoluzione del consumo di letteratura audio.
#9

Traduzione Automatica End-to-End di Audiolibri: Corpus, Modelli e Analisi

Analisi di modelli end-to-end per la traduzione parlato-testo su un corpus di audiolibri arricchito, esplorando scenari di addestramento ed efficienza del modello.
#10

Musica e Livelli di Narrazione nel Cinema: Un'Analisi Narratologica

Un'analisi approfondita della musica cinematografica attraverso la lente della narratologia, esplorando il funzionamento della musica attraverso i diversi livelli narrativi nel cinema.
#11

Raccomandazioni Personalizzate di Audiolibri su Spotify Tramite Graph Neural Networks

Il sistema innovativo 2T-HGNN di Spotify combina Graph Neural Networks Eterogenei e modelli Two Tower per raccomandazioni scalabili di audiolibri, con un aumento del +46% del tasso di inizio ascolto.
#12

VINA: Apprendimento dell'Ancoraggio Temporale di Articoli Istruttivi nei Video tramite Narrazioni

Un approccio innovativo per l'ancoraggio temporale debolmente supervisionato di passaggi procedurali in video istruttivi mediante allineamento multimodale di frame, narrazioni e descrizioni da wikiHow.
#13

J-MAC: Corpus Audiobook Giapponese Multi-Parlante per la Sintesi Vocale

Analisi della metodologia di costruzione del corpus J-MAC, contributi tecnici, risultati di valutazione e direzioni future per la sintesi vocale espressiva negli audiolibri.
#14

MAMLCon: Meta-Apprendimento per la Classificazione Continua di Parole Parlate con Pochi Esempi

Un nuovo approccio di meta-apprendimento (MAMLCon) che mitiga l'oblio catastrofico nell'apprendimento continuo con pochi esempi per la classificazione di parole parlate, superando metodi esistenti come OML.
#15

Audiolibri Mobili per la Comprensione Orale in EFL: Un Quadro per Studenti Universitari

Analisi e quadro per integrare gli Audiolibri Mobili (MAB) per sviluppare le abilità di comprensione orale in studenti universitari di EFL, vantaggi, selezione, implementazione e valutazione.
#16

Audiolibri Mobili per la Comprensione Orale in EFL: Un Quadro per Studenti Universitari

Analisi e quadro per integrare gli audiolibri mobili per sviluppare le abilità di comprensione orale in studenti universitari di inglese come lingua straniera (EFL).
#17

Movie101v2: Un Benchmark Migliorato per la Generazione Automatica di Narrazioni Cinematografiche

Analisi di Movie101v2, un dataset bilingue su larga scala per la narrazione cinematografica, inclusa la sua roadmap a tre fasi, valutazioni di baseline e direzioni future di ricerca.
#18

Effetto della Musica e del Testo sul Riconoscimento della Parola Parlata: Analisi e Implicazioni

Analisi di ricerche su come la musica di sottofondo, con e senza testo, influenzi il riconoscimento della parola parlata, con implicazioni per contesti sociali e lavori futuri.
#19

WonderFlow: Progettazione di Video di Dati Animati Centrata sulla Narrazione

Uno strumento di authoring interattivo che semplifica la creazione di video di dati animati collegando la narrazione alle animazioni dei grafici e fornendo effetti di animazione consapevoli della struttura.
#20

Generazione di Narrazione per Video Cartoon: Formalizzazione del Compito, Dataset e Modelli

Un articolo di ricerca che introduce il compito di generazione automatica di narrazione per video, presenta un nuovo dataset da Peppa Pig e propone modelli per la tempistica e la generazione del contenuto.
#21

Un Modello Fonetico dell'Elaborazione Lessicale Orale in Lingua Non-Nativa: Analisi e Approfondimenti

Analisi di un modello computazionale che esplora il ruolo della percezione fonetica nell'elaborazione di parole non-native, sfidando le spiegazioni fonologiche tradizionali.
#22

Embedding Fonetico e Semantico di Parole Parlate con Applicazioni nel Recupero di Contenuti Audio

Un framework a due stadi per creare rappresentazioni vettoriali di parole parlate che integrano informazioni fonetiche e semantiche, abilitando un recupero avanzato di documenti audio oltre il semplice matching di termini.
#23

Analisi Prosodica degli Audiolibri: Modelli NLP per un Text-to-Speech Migliorato

Ricerca sulla previsione degli attributi prosodici (tono, volume, velocità) dal testo narrativo utilizzando NLP e modelli linguistici, per migliorare la sintesi vocale nella generazione di audiolibri.
#24

Classificazione di Narratori Inaffidabili con Modelli Linguistici di Grande Dimensione

Ricerca sull'identificazione computazionale di narratori inaffidabili tramite LLM, con dataset TUN A e classificazione di inaffidabilità intra-narrativa, inter-narrativa e inter-testuale.
#25

Rilevamento di Azioni Debole Supervisionato Guidato da Narrazione Audio

Un articolo di ricerca che esplora come utilizzare la narrazione audio rumorosa come supervisione debole per addestrare modelli di rilevamento di azioni, riducendo i costi di annotazione sfruttando caratteristiche video multimodali.
#26

MultiActor-Audiobook: Generazione Zero-Shot con Multipli Speaker

Approccio zero-shot per generare audiolibri espressivi usando persone multimodali e istruzioni basate su LLM, eliminando costosi training e annotazioni manuali.
#27

MultiActor-Audiobook: Generazione Zero-Shot con Volti e Voci

Analisi tecnica di MultiActor-Audiobook, un innovativo sistema zero-shot per generare audiolibri espressivi utilizzando persone multimodali e istruzioni basate su LLM.

Ultimo aggiornamento: 2026-02-25 12:01:15