-
#1Kollaboratives Storytelling mit menschlichen Darstellern und KI-Erzählern: Eine EreignisberichtanalyseAnalyse des Einsatzes von GPT-3 als Co-Erzähler im Live-Improvisationstheater. Behandelt Methodik, Publikums-/Darstellerfeedback und Implikationen für kreative Mensch-KI-Kollaboration.
-
#2Bewertung des Weltbildes von Sprachmodellen für die FiktionsgenerierungAnalyse der Fähigkeit von LLMs, konsistente fiktionale Welten aufrechtzuerhalten, mit Erkenntnissen zu Grenzen in narrativer Kohärenz und Zustandserhaltung für kreatives Schreiben.
-
#3audio-novel - Technische Dokumentation und RessourcenUmfassende technische Dokumentation und Ressourcen zur audio-novel-Technologie und ihren Anwendungen.
-
#4Cross-Modale Audio-Retrieval mit natürlichen SprachabfragenForschung zur Audiosuche mit freien Sprachabfragen, die neue Benchmarks und Baselines für cross-modales Audio-Retrieval einführt.
-
#5Das Hörbucherlebnis konzeptualisieren: Ein theoretischer RahmenEine Analyse des theoretischen Rahmens zur Konzeptualisierung der Unterschiede zwischen dem Lesen gedruckter Bücher und dem Hören von Hörbüchern, mit Schwerpunkt auf mobilen Hörpraktiken.
-
#6AudioBoost: Verbesserung der Hörbuch-Entdeckung in der Spotify-Suche durch LLM-generierte synthetische SuchanfragenAnalyse von AudioBoost, einem System, das LLMs nutzt, um aus Hörbuch-Metadaten synthetische Suchanfragen zu generieren und so die Auffindbarkeit und Suchvorschläge in Spotifys Cold-Start-Szenario zu verbessern.
-
#7AudioBoost: Verbesserung der Hörbuch-Entdeckung in der Spotify-Suche durch LLM-generierte synthetische SuchanfragenAnalyse von AudioBoost, einem System, das große Sprachmodelle nutzt, um synthetische Suchanfragen zu generieren und so die Auffindbarkeit von Hörbüchern in der Spotify-Suche bei Cold-Start-Szenarien zu verbessern.
-
#8Audiobook-CC: Ein Framework für kontrollierbare, langkontextuelle Mehrsprechers-HörbuchgenerierungAnalyse von Audiobook-CC, einem neuartigen Sprachsynthese-Framework zur Erzeugung kohärenter, emotional ausdrucksstarker Mehrsprechers-Hörbücher mit feingranularer Kontrolle und Langkontext-Modellierung.
-
#9Audiobook-CC: Ein Framework für kontrollierbare, langkontextuelle Multicast-HörbuchgenerierungAnalyse von Audiobook-CC, einem neuartigen TTS-Framework zur Erzeugung kohärenter, emotional ausdrucksstarker und kontextuell konsistenter Multicast-Hörbücher mit feingranularer Steuerung.
-
#10Analyse von 'Digitale Hörbücher: Neue Medien, Nutzer und Erfahrungen' – Eine medienwissenschaftliche PerspektiveEine kritische Analyse der Buchbesprechung zu 'Digitale Hörbücher', die Mediatisierungstheorie, Post-Phänomenologie und den Wandel des literarischen Hörkonsums untersucht.
-
#11End-to-End-Automatische Sprachübersetzung von Hörbüchern: Korpus, Modelle & AnalyseAnalyse von End-to-End-Sprach-zu-Text-Übersetzungsmodellen anhand eines erweiterten Hörbuchkorpus, mit Untersuchung von Trainingsszenarien und Modelleffizienz.
-
#12Musik und Erzählebenen im Film: Eine narratologische AnalyseEine tiefgehende Analyse der Filmmusik aus narratologischer Perspektive, die untersucht, wie Musik auf verschiedenen Erzählebenen im Kino funktioniert.
-
#13Personalisierte Hörbuch-Empfehlungen bei Spotify durch Graph Neural NetworksSpotifys innovatives 2T-HGNN-System kombiniert Heterogeneous Graph Neural Networks und Two-Tower-Modelle für skalierbare Hörbuch-Empfehlungen mit +46 % mehr Starts.
-
#14J-MAC: Japanisches Multi-Sprecher-Hörbuch-Korpus für SprachsyntheseAnalyse der J-MAC-Korpuskonstruktion, technischer Beiträge, Evaluierungsergebnisse und zukünftiger Richtungen für expressive Hörbuch-Sprachsynthese.
-
#15MAMLCon: Meta-Learning für kontinuierliche Few-Shot-Klassifikation gesprochener WörterEin neuartiger Meta-Learning-Ansatz (MAMLCon), der katastrophales Vergessen bei kontinuierlichem Few-Shot-Lernen für die Klassifikation gesprochener Wörter mildert und bestehende Methoden wie OML übertrifft.
-
#16Mobile Audiobooks für das Hörverständnis im EFL-Unterricht: Ein Rahmenwerk für StudierendeAnalyse und Rahmenwerk zur Integration von Mobile Audiobooks (MABs) zur Entwicklung von Hörverständnisfähigkeiten bei EFL-Studierenden. Deckt Vorteile, Auswahl, Umsetzung und Bewertung ab.
-
#17Mobile Audiobooks für das Hörverständnis in EFL: Ein Framework für StudierendeAnalyse und Framework zur Integration mobiler Hörbücher zur Entwicklung von Hörverstehensfähigkeiten bei EFL-Studierenden. Vorteile, Auswahl, Umsetzung und Bewertung.
-
#18Movie101v2: Ein verbesserter Benchmark für die automatische FilmerzählungsgenerierungAnalyse von Movie101v2, einem groß angelegten bilingualen Datensatz für Filmerzählungen, einschließlich seiner dreistufigen Aufgaben-Roadmap, Baseline-Evaluierungen und zukünftiger Forschungsrichtungen.
-
#19Einfluss von Musik und Gesangstexten auf die Erkennung gesprochener Wörter: Analyse und ImplikationenEine Analyse der Forschung, wie Hintergrundmusik mit und ohne Gesangstexte die Erkennung gesprochener Wörter beeinflusst, mit Implikationen für soziale Umgebungen und zukünftige Arbeiten.
-
#20WonderFlow: Narration-zentriertes Design animierter DatenvideosEin interaktives Autorentool, das die Erstellung animierter Datenvideos vereinfacht, indem es die Erzählung mit Diagrammanimationen verknüpft und struktur-sensible Animationseffekte bereitstellt.
-
#21Erzählungsgenerierung für Zeichentrickvideos: Aufgabenformalisierung, Datensatz und ModelleEine Forschungsarbeit zur automatischen Erzählungsgenerierung für Videos, die einen neuen Datensatz aus Peppa Pig vorstellt und Modelle für Timing und Inhaltserstellung präsentiert.
-
#22Ein phonetisches Modell der Verarbeitung gesprochener Wörter bei Nicht-Muttersprachlern: Analyse und ErkenntnisseAnalyse eines Computermodells, das die Rolle der phonetischen Wahrnehmung bei der Wortverarbeitung Nicht-Muttersprachlicher untersucht und traditionelle phonologische Erklärungen hinterfragt.
-
#23Phonetische und semantische Einbettung gesprochener Wörter mit Anwendungen in der gesprochenen InhaltswiedergefindungEin zweistufiges Framework zur Einbettung gesprochener Wörter mit phonetischen und semantischen Informationen, das eine erweiterte Suche in gesprochenen Dokumenten über einfache Begriffssuche hinaus ermöglicht.
-
#24Prosodieanalyse von Hörbüchern: NLP-Modelle für verbesserte SprachsyntheseForschung zur Vorhersage von Prosodieattributen (Tonhöhe, Lautstärke, Sprechgeschwindigkeit) aus Erzähltexten mithilfe von NLP und Sprachmodellen zur Verbesserung der TTS für die Hörbuchgenerierung.
-
#25Klassifizierung unzuverlässiger Erzähler mit großen SprachmodellenForschung zur computergestützten Identifikation unzuverlässiger Erzähler mittels LLMs, mit TUN-A-Datensatz und Klassifizierung intra-narrativer, inter-narrativer und inter-textueller Unzuverlässigkeit.
-
#26Schwach überwachte Aktionserkennung mit Audio-Narration als LeitfadenEine Forschungsarbeit, die untersucht, wie verrauschte Audio-Narration als schwache Überwachung genutzt wird, um Aktionserkennungsmodelle zu trainieren, wodurch Annotationskosten gesenkt und multimodale Videomerkmale genutzt werden.
-
#27MultiActor-Audiobook: Null-Ansatz-Generierung mit mehreren SprechernEin Null-Ansatz zur Generierung ausdrucksstarker Hörbücher mit multimodalen Sprecher-Personas und LLM-basierten Skriptanweisungen, ohne kostspieliges Training oder manuelle Annotation.
-
#28MultiActor-Audiobook: Zero-Shot-Generierung mit Gesichtern und StimmenEine technische Analyse von MultiActor-Audiobook, einem neuartigen Zero-Shot-System zur Erzeugung ausdrucksstarker Hörbücher mithilfe multimodaler Sprecher-Personas und LLM-basierter Skriptanweisungen.
Zuletzt aktualisiert: 2026-02-25 12:01:13