-
#1Récit collaboratif avec acteurs humains et narrateurs IA : Analyse d'un rapport d'événementAnalyse de l'utilisation de GPT-3 comme co-narrateur dans un théâtre d'improvisation en direct. Couvre la méthodologie, les retours du public/des artistes et les implications pour la collaboration créative humain-IA.
-
#2audio-novel - Documentation Technique et RessourcesDocumentation technique complète et ressources sur la technologie audio-novel et ses applications.
-
#3Recherche Audio Cross-Modale avec Requêtes en Langage NaturelRecherche sur la récupération d'audio via des requêtes en langage naturel libre, introduisant nouveaux benchmarks et bases de référence pour la recherche audio cross-modale.
-
#4AudioBoost : Amélioration de la Découverte de Livres Audio dans la Recherche Spotify via des Requêtes Synthétiques Générées par LLMAnalyse d'AudioBoost, un système utilisant des LLM pour générer des requêtes synthétiques à partir des métadonnées des livres audio afin d'améliorer la recherche et les suggestions de requêtes dans le scénario de démarrage à froid de Spotify.
-
#5Audiobook-CC : Un Cadre pour la Génération Contrôlable de Livres Audio Multicast à Long ContexteAnalyse d'Audiobook-CC, un nouveau cadre de synthèse vocale pour générer des livres audio multicast cohérents, expressifs émotionnellement, avec un contrôle fin et une modélisation du long contexte.
-
#6Audiobook-CC : Un Cadre pour la Génération Contrôlable de Livres Audio Multicast à Long ContexteAnalyse d'Audiobook-CC, un nouveau cadre TTS pour générer des livres audio multicast cohérents, expressifs émotionnellement et contextuellement consistants, avec un contrôle granulaire.
-
#7Recommandations Personnalisées de Livres Audio chez Spotify via les Réseaux de Neurones GraphiquesLe système innovant 2T-HGNN de Spotify combinant les Réseaux de Neurones Graphiques Hétérogènes et les modèles Two Tower pour des recommandations de livres audio évolutives, avec une augmentation de +46% du taux de démarrage.
-
#8MAMLCon : Apprentissage par méta-apprentissage pour la classification continue de mots parlés avec peu d'exemplesUne nouvelle approche par méta-apprentissage (MAMLCon) atténue l'oubli catastrophique dans l'apprentissage continu avec peu d'exemples pour la classification de mots parlés, surpassant des méthodes existantes comme OML.
-
#9Livres audio mobiles pour la compréhension orale en anglais langue étrangère : Un cadre pour les étudiants universitairesAnalyse de l'intégration des livres audio mobiles pour développer les compétences de compréhension orale chez les étudiants universitaires en anglais langue étrangère, couvrant les avantages, les critères de sélection, les phases pédagogiques et l'évaluation.
-
#10Movie101v2 : Un Référentiel Amélioré pour la Génération Automatique de Narration CinématographiqueAnalyse de Movie101v2, un jeu de données bilingue à grande échelle pour la narration de films, incluant sa feuille de route en trois étapes, ses évaluations de référence et ses futures directions de recherche.
-
#11Effet de la musique et des paroles sur la reconnaissance de la parole : Analyse et implicationsAnalyse de recherches sur l'impact de la musique de fond avec et sans paroles sur la reconnaissance de la parole, avec implications pour les contextes sociaux et travaux futurs.
-
#12WonderFlow : Conception centrée sur la narration pour les vidéos de données animéesUn outil de création interactif qui simplifie la production de vidéos de données animées en liant la narration aux animations de graphiques et en fournissant des effets d'animation conscients de la structure.
-
#13Génération de narration pour vidéos de dessins animés : Formalisation de la tâche, jeu de données et modèlesCet article présente la nouvelle tâche de génération de narration pour vidéos, un jeu de données issu de Peppa Pig, et propose des modèles pour le timing et la génération de contenu.
-
#14Un modèle phonétique du traitement des mots parlés en langue non maternelle : analyse et perspectivesAnalyse d'un modèle computationnel explorant le rôle de la perception phonétique dans le traitement des mots en langue non maternelle, remettant en question les explications phonologiques traditionnelles.
-
#15Représentation phonétique et sémantique des mots parlés avec applications dans la recherche de contenu audioUn cadre en deux étapes pour représenter les mots parlés avec des informations phonétiques et sémantiques, permettant une recherche avancée dans les documents audio au-delà du simple appariement de termes.
-
#16Analyse Prosodique des Livres Audio : Modèles de TAL pour une Synthèse Vocale AmélioréeRecherche sur la prédiction des attributs prosodiques (hauteur, volume, débit) à partir de textes narratifs via le TAL et les modèles de langage, améliorant la synthèse vocale pour la génération de livres audio.
-
#17Classification des Narrateurs Non Fiables avec les Grands Modèles de LangageRecherche sur l'identification computationnelle des narrateurs non fiables via les LLM, présentant le jeu de données TUN A et la classification de la non-fiabilité intra-narrationale, inter-narrationale et inter-textuelle.
-
#18Détection d'actions faiblement supervisée guidée par narration audioUn article de recherche explorant l'utilisation de narrations audio bruitées comme supervision faible pour entraîner des modèles de détection d'actions vidéo, réduisant les coûts d'annotation tout en exploitant des caractéristiques multimodales.
-
#19MultiActor-Audiobook : Génération Zero-Shot avec Intervenants MultiplesUne approche zero-shot pour générer des livres audio expressifs en utilisant des personas d'intervenants multimodaux et des instructions de script basées sur des LLM, éliminant l'entraînement coûteux et l'annotation manuelle.
-
#20MultiActor-Audiobook : Génération Zero-Shot avec Visages et VoixAnalyse technique de MultiActor-Audiobook, un système zero-shot novateur pour générer des livres audio expressifs en utilisant des personas d'orateurs multimodaux et des instructions de script basées sur des LLM.
Dernière mise à jour: 2026-01-12 05:31:33