-
#1Récit collaboratif avec acteurs humains et narrateurs IA : Analyse d'un rapport d'événementAnalyse de l'utilisation de GPT-3 comme co-narrateur dans un théâtre d'improvisation en direct. Couvre la méthodologie, les retours du public/des artistes et les implications pour la collaboration créative humain-IA.
-
#2Évaluation de la Vision du Monde des Modèles de Langage pour la Génération de FictionAnalyse de la capacité des LLM à maintenir des mondes fictionnels cohérents, révélant des limites dans la cohérence narrative et la rétention d'état pour l'écriture créative.
-
#3audio-novel - Documentation Technique et RessourcesDocumentation technique complète et ressources sur la technologie audio-novel et ses applications.
-
#4Recherche Audio Cross-Modale avec Requêtes en Langage NaturelRecherche sur la récupération d'audio via des requêtes en langage naturel libre, introduisant nouveaux benchmarks et bases de référence pour la recherche audio cross-modale.
-
#5Conceptualiser l'expérience du livre audio : un cadre théoriqueAnalyse du cadre théorique pour conceptualiser les différences entre la lecture de livres imprimés et l'écoute de livres audio, en mettant l'accent sur les pratiques d'écoute mobile.
-
#6AudioBoost : Amélioration de la Découverte de Livres Audio dans la Recherche Spotify via des Requêtes Synthétiques Générées par LLMAnalyse d'AudioBoost, un système utilisant des LLM pour générer des requêtes synthétiques à partir des métadonnées des livres audio afin d'améliorer la recherche et les suggestions de requêtes dans le scénario de démarrage à froid de Spotify.
-
#7AudioBoost : Amélioration de la Découverte de Livres Audio dans la Recherche Spotify via des Requêtes Synthétiques Générées par LLMAnalyse d'AudioBoost, un système utilisant des modèles de langage de grande taille pour générer des requêtes synthétiques afin d'améliorer la récupérabilité des livres audio dans le moteur de recherche de Spotify lors des scénarios de démarrage à froid.
-
#8Audiobook-CC : Un Cadre pour la Génération Contrôlable de Livres Audio Multicast à Long ContexteAnalyse d'Audiobook-CC, un nouveau cadre de synthèse vocale pour générer des livres audio multicast cohérents, expressifs émotionnellement, avec un contrôle fin et une modélisation du long contexte.
-
#9Audiobook-CC : Un Cadre pour la Génération Contrôlable de Livres Audio Multicast à Long ContexteAnalyse d'Audiobook-CC, un nouveau cadre TTS pour générer des livres audio multicast cohérents, expressifs émotionnellement et contextuellement consistants, avec un contrôle granulaire.
-
#10Analyse de 'Livre audio numérique : Nouveaux médias, utilisateurs et expériences' - Une perspective en études des médiasUne analyse critique de la recension de 'Livre audio numérique' explorant la théorie de la médiatisation, la post-phénoménologie et l'évolution du paysage de la consommation littéraire audio.
-
#11Traduction Automatique de la Parole de Bout en Bout pour les Livres Audio : Corpus, Modèles et AnalyseAnalyse de modèles de traduction parole-texte de bout en bout sur un corpus de livres audio augmenté, explorant les scénarios d'entraînement et l'efficacité des modèles.
-
#12Musique et niveaux de narration au cinéma : une analyse narratologiqueUne analyse approfondie de la musique de film à travers le prisme de la narratologie, explorant son fonctionnement à travers les différents niveaux narratifs du cinéma.
-
#13Recommandations Personnalisées de Livres Audio chez Spotify via les Réseaux de Neurones GraphiquesLe système innovant 2T-HGNN de Spotify combinant les Réseaux de Neurones Graphiques Hétérogènes et les modèles Two Tower pour des recommandations de livres audio évolutives, avec une augmentation de +46% du taux de démarrage.
-
#14J-MAC : Corpus Audio-livresque Japonais Multi-Locuteurs pour la Synthèse VocaleAnalyse de la méthodologie de construction du corpus J-MAC, contributions techniques, résultats d'évaluation et perspectives pour la synthèse vocale expressive des livres audio.
-
#15MAMLCon : Apprentissage par méta-apprentissage pour la classification continue de mots parlés avec peu d'exemplesUne nouvelle approche par méta-apprentissage (MAMLCon) atténue l'oubli catastrophique dans l'apprentissage continu avec peu d'exemples pour la classification de mots parlés, surpassant des méthodes existantes comme OML.
-
#16Livres Audio Mobiles pour la Compréhension Orale en Anglais Langue Étrangère : Un Cadre pour les Étudiants UniversitairesAnalyse et cadre pour intégrer les Livres Audio Mobiles (LAM) afin de développer les compétences de compréhension orale chez les étudiants universitaires en ALE, couvrant avantages, sélection, mise en œuvre et évaluation.
-
#17Livres audio mobiles pour la compréhension orale en ALE : un cadre pour les étudiants universitairesAnalyse et cadre pour intégrer les livres audio mobiles afin de développer les compétences de compréhension orale chez les étudiants universitaires en anglais langue étrangère (ALE), couvrant avantages, sélection, mise en œuvre et évaluation.
-
#18Movie101v2 : Un Référentiel Amélioré pour la Génération Automatique de Narration CinématographiqueAnalyse de Movie101v2, un jeu de données bilingue à grande échelle pour la narration de films, incluant sa feuille de route en trois étapes, ses évaluations de référence et ses futures directions de recherche.
-
#19Effet de la musique et des paroles sur la reconnaissance de la parole : Analyse et implicationsAnalyse de recherches sur l'impact de la musique de fond avec et sans paroles sur la reconnaissance de la parole, avec implications pour les contextes sociaux et travaux futurs.
-
#20WonderFlow : Conception centrée sur la narration pour les vidéos de données animéesUn outil de création interactif qui simplifie la production de vidéos de données animées en liant la narration aux animations de graphiques et en fournissant des effets d'animation conscients de la structure.
-
#21Génération de narration pour vidéos de dessins animés : Formalisation de la tâche, jeu de données et modèlesUn article de recherche présentant la tâche de génération automatique de narration pour vidéos, un nouveau jeu de données issu de Peppa Pig, et des modèles pour le timing et la génération de contenu.
-
#22Un modèle phonétique du traitement des mots parlés en langue non maternelle : analyse et perspectivesAnalyse d'un modèle computationnel explorant le rôle de la perception phonétique dans le traitement des mots en langue non maternelle, remettant en question les explications phonologiques traditionnelles.
-
#23Représentation phonétique et sémantique des mots parlés avec applications dans la recherche de contenu audioUn cadre en deux étapes pour représenter les mots parlés avec des informations phonétiques et sémantiques, permettant une recherche avancée dans les documents audio au-delà du simple appariement de termes.
-
#24Analyse Prosodique des Livres Audio : Modèles de TAL pour une Synthèse Vocale AmélioréeRecherche sur la prédiction des attributs prosodiques (hauteur, volume, débit) à partir de textes narratifs via le TAL et les modèles de langage, améliorant la synthèse vocale pour la génération de livres audio.
-
#25Classification des Narrateurs Non Fiables avec les Grands Modèles de LangageRecherche sur l'identification computationnelle des narrateurs non fiables via les LLM, présentant le jeu de données TUN A et la classification de la non-fiabilité intra-narrationale, inter-narrationale et inter-textuelle.
-
#26Détection d'actions faiblement supervisée guidée par la narration audioUn article de recherche explorant l'utilisation de narrations audio bruitées comme supervision faible pour entraîner des modèles de détection d'actions, réduisant les coûts d'annotation tout en exploitant des caractéristiques vidéo multimodales.
-
#27MultiActor-Audiobook : Génération Zero-Shot avec Intervenants MultiplesUne approche zero-shot pour générer des livres audio expressifs en utilisant des personas d'intervenants multimodaux et des instructions de script basées sur des LLM, éliminant l'entraînement coûteux et l'annotation manuelle.
-
#28MultiActor-Audiobook : Génération Zero-Shot avec Visages et VoixAnalyse technique de MultiActor-Audiobook, un système zero-shot novateur pour générer des livres audio expressifs en utilisant des personas d'orateurs multimodaux et des instructions de script basées sur des LLM.
Dernière mise à jour: 2026-02-25 12:01:14