-
#1Kollaboratives Storytelling mit menschlichen Darstellern und KI-Erzählern: Eine EreignisberichtanalyseAnalyse des Einsatzes von GPT-3 als Co-Erzähler im Live-Improvisationstheater. Behandelt Methodik, Publikums-/Darstellerfeedback und Implikationen für kreative Mensch-KI-Kollaboration.
-
#2audio-novel - Technische Dokumentation und RessourcenUmfassende technische Dokumentation und Ressourcen zur audio-novel-Technologie und ihren Anwendungen.
-
#3Cross-Modale Audio-Retrieval mit natürlichen SprachabfragenForschung zur Audiosuche mit freien Sprachabfragen, die neue Benchmarks und Baselines für cross-modales Audio-Retrieval einführt.
-
#4AudioBoost: Verbesserung der Hörbuch-Entdeckung in der Spotify-Suche durch LLM-generierte synthetische SuchanfragenAnalyse von AudioBoost, einem System, das LLMs nutzt, um aus Hörbuch-Metadaten synthetische Suchanfragen zu generieren und so die Auffindbarkeit und Suchvorschläge in Spotifys Cold-Start-Szenario zu verbessern.
-
#5Audiobook-CC: Ein Framework für kontrollierbare, langkontextuelle Mehrsprechers-HörbuchgenerierungAnalyse von Audiobook-CC, einem neuartigen Sprachsynthese-Framework zur Erzeugung kohärenter, emotional ausdrucksstarker Mehrsprechers-Hörbücher mit feingranularer Kontrolle und Langkontext-Modellierung.
-
#6Audiobook-CC: Ein Framework für kontrollierbare, langkontextuelle Multicast-HörbuchgenerierungAnalyse von Audiobook-CC, einem neuartigen TTS-Framework zur Erzeugung kohärenter, emotional ausdrucksstarker und kontextuell konsistenter Multicast-Hörbücher mit feingranularer Steuerung.
-
#7Personalisierte Hörbuch-Empfehlungen bei Spotify durch Graph Neural NetworksSpotifys innovatives 2T-HGNN-System kombiniert Heterogeneous Graph Neural Networks und Two-Tower-Modelle für skalierbare Hörbuch-Empfehlungen mit +46 % mehr Starts.
-
#8MAMLCon: Meta-Learning für kontinuierliche Few-Shot-Klassifikation gesprochener WörterEin neuartiger Meta-Learning-Ansatz (MAMLCon), der katastrophales Vergessen bei kontinuierlichem Few-Shot-Lernen für die Klassifikation gesprochener Wörter mildert und bestehende Methoden wie OML übertrifft.
-
#9Mobile Audiobooks für das Hörverständnis in EFL: Ein Rahmenwerk für StudierendeAnalyse der Integration mobiler Hörbücher zur Entwicklung von Hörverständnisfähigkeiten bei EFL-Studierenden, mit Vorteilen, Auswahlkriterien, Unterrichtsphasen und Bewertung.
-
#10Movie101v2: Ein verbesserter Benchmark für die automatische FilmerzählungsgenerierungAnalyse von Movie101v2, einem groß angelegten bilingualen Datensatz für Filmerzählungen, einschließlich seiner dreistufigen Aufgaben-Roadmap, Baseline-Evaluierungen und zukünftiger Forschungsrichtungen.
-
#11Einfluss von Musik und Gesangstexten auf die Erkennung gesprochener Wörter: Analyse und ImplikationenEine Analyse der Forschung, wie Hintergrundmusik mit und ohne Gesangstexte die Erkennung gesprochener Wörter beeinflusst, mit Implikationen für soziale Umgebungen und zukünftige Arbeiten.
-
#12WonderFlow: Narration-zentriertes Design animierter DatenvideosEin interaktives Autorentool, das die Erstellung animierter Datenvideos vereinfacht, indem es die Erzählung mit Diagrammanimationen verknüpft und struktur-sensible Animationseffekte bereitstellt.
-
#13Erzählungsgenerierung für Zeichentrickvideos: Aufgabenformalisierung, Datensatz und ModelleDieses Paper stellt die neue Aufgabe der Erzählungsgenerierung für Videos vor, präsentiert einen Datensatz aus Peppa Pig und schlägt Modelle für Timing und Inhaltsgenerierung vor.
-
#14Ein phonetisches Modell der Verarbeitung gesprochener Wörter bei Nicht-Muttersprachlern: Analyse und ErkenntnisseAnalyse eines Computermodells, das die Rolle der phonetischen Wahrnehmung bei der Wortverarbeitung Nicht-Muttersprachlicher untersucht und traditionelle phonologische Erklärungen hinterfragt.
-
#15Phonetische und semantische Einbettung gesprochener Wörter mit Anwendungen in der gesprochenen InhaltswiedergefindungEin zweistufiges Framework zur Einbettung gesprochener Wörter mit phonetischen und semantischen Informationen, das eine erweiterte Suche in gesprochenen Dokumenten über einfache Begriffssuche hinaus ermöglicht.
-
#16Prosodieanalyse von Hörbüchern: NLP-Modelle für verbesserte SprachsyntheseForschung zur Vorhersage von Prosodieattributen (Tonhöhe, Lautstärke, Sprechgeschwindigkeit) aus Erzähltexten mithilfe von NLP und Sprachmodellen zur Verbesserung der TTS für die Hörbuchgenerierung.
-
#17Klassifizierung unzuverlässiger Erzähler mit großen SprachmodellenForschung zur computergestützten Identifikation unzuverlässiger Erzähler mittels LLMs, mit TUN-A-Datensatz und Klassifizierung intra-narrativer, inter-narrativer und inter-textueller Unzuverlässigkeit.
-
#18Schwach überwachte Aktionserkennung geleitet durch AudiokommentareEine Forschungsarbeit, die untersucht, wie verrauschte Audiokommentare als schwache Supervision genutzt werden können, um Videomodelle zur Aktionserkennung zu trainieren, um Annotationskosten zu senken und multimodale Merkmale zu nutzen.
-
#19MultiActor-Audiobook: Null-Ansatz-Generierung mit mehreren SprechernEin Null-Ansatz zur Generierung ausdrucksstarker Hörbücher mit multimodalen Sprecher-Personas und LLM-basierten Skriptanweisungen, ohne kostspieliges Training oder manuelle Annotation.
-
#20MultiActor-Audiobook: Zero-Shot-Generierung mit Gesichtern und StimmenEine technische Analyse von MultiActor-Audiobook, einem neuartigen Zero-Shot-System zur Erzeugung ausdrucksstarker Hörbücher mithilfe multimodaler Sprecher-Personas und LLM-basierter Skriptanweisungen.
Zuletzt aktualisiert: 2026-01-12 05:31:33