1. Introduction
Les vidéos représentent une source de données multimodales riche pour l'apprentissage automatique, englobant des informations spatiales (visuelles), temporelles et souvent auditives. Cependant, exploiter pleinement ce potentiel est entravé par le coût prohibitif d'obtention d'annotations précises au niveau de l'instance (heure de début, heure de fin, étiquette d'action) pour la détection d'actions dans des vidéos non montées. Cet article aborde ce goulot d'étranglement en proposant une nouvelle approche faiblement supervisée qui utilise une narration audio peu coûteuse et facilement disponible comme signal de supervision principal. L'idée centrale est que les narrations, bien qu'imprécises temporellement (ne fournissant qu'un temps de départ approximatif comme dans le jeu de données EPIC Kitchens), contiennent des indices sémantiques précieux qui peuvent guider un modèle à se concentrer sur les segments vidéo pertinents et à apprendre des détecteurs d'actions efficaces, réduisant ainsi considérablement la dépendance à l'annotation.
2. Travaux connexes & Énoncé du problème
2.1 Paradigmes de supervision en détection d'actions
Le domaine de la détection temporelle d'actions fonctionne selon trois paradigmes de supervision principaux :
- Entièrement supervisé : Nécessite des annotations coûteuses au niveau de l'instance (limites temporelles précises). Conduit à de hautes performances mais n'est pas évolutif.
- Faiblement supervisé (niveau vidéo) : Utilise uniquement des étiquettes de classe au niveau de la vidéo. Suppose peu d'actions par vidéo (par exemple, THUMOS14 a ~1 classe/vidéo), ce qui est irréaliste pour les vidéos longues et complexes comme celles d'EPIC Kitchens (moyenne ~35 classes/vidéo).
- Faiblement supervisé (narration) : Le paradigme proposé. Utilise les transcriptions de narrations audio bruitées avec un seul horodatage comme étiquettes faibles. Cela est plus informatif que les étiquettes au niveau de la vidéo mais moins cher que l'annotation complète d'instances.
Comparaison des jeux de données
THUMOS14 : Moyenne 1,08 classe/vidéo. EPIC Kitchens : Moyenne 34,87 classes/vidéo. Ce contraste marqué souligne la limitation des méthodes WSAD traditionnelles dans les scénarios réels.
2.2 Le défi de la supervision faible
Le défi central est le désalignement temporel entre l'horodatage de la narration et l'instance d'action réelle. Le modèle doit apprendre à supprimer les trames d'arrière-plan non pertinentes et à se concentrer sur le segment temporel correct associé à l'action narrée, malgré l'étiquette bruitée.
3. Méthode proposée
3.1 Aperçu de l'architecture du modèle
Le modèle proposé est une architecture multimodale conçue pour traiter et fusionner les caractéristiques des trames RVB, du flux optique (mouvement) et des pistes audio ambiantes. Un composant central est un mécanisme d'attention temporelle qui apprend à pondérer l'importance des différentes trames vidéo en fonction de leur pertinence par rapport à l'étiquette de narration audio fournie.
3.2 Apprentissage à partir de narrations bruitées
Au lieu de traiter l'horodatage de la narration comme une étiquette stricte, le modèle le traite comme un indice faible. L'objectif d'apprentissage encourage des scores d'activation élevés pour les trames temporellement proches du point de narration pour la classe d'action correcte, tout en minimisant les activations pour toutes les autres trames et classes. Cela s'apparente à une forme d'apprentissage à instances multiples (MIL) où la vidéo est un "sac" de trames, et l'"instance" positive (l'action) se trouve quelque part près du point narré.
3.3 Fusion de caractéristiques multimodales
Les caractéristiques de différentes modalités (RVB pour l'apparence, flux pour le mouvement, audio pour le son ambiant) sont extraites à l'aide de réseaux pré-entraînés (par exemple, I3D pour RVB/Flux, VGGish pour l'audio). Ces caractéristiques sont ensuite fusionnées, soit par concaténation précoce, soit via un module d'attention cross-modale plus sophistiqué, pour former une représentation conjointe robuste pour la classification et la localisation d'actions.
4. Expériences & Résultats
4.1 Jeu de données et configuration
L'évaluation principale est menée sur le jeu de données EPIC Kitchens 100, un jeu de données vidéo égocentrique à grande échelle avec des annotations d'actions denses et des narrations audio correspondantes. Le modèle est entraîné en utilisant uniquement les heures de début de narration et les étiquettes verbe-nom transcrites. La performance est mesurée à l'aide de métriques standard de détection d'actions temporelles comme la précision moyenne moyenne (mAP) à différents seuils d'Intersection sur Union temporelle (tIoU).
4.2 Résultats quantitatifs
L'article démontre que le modèle proposé, entraîné uniquement avec la supervision par narration, atteint des performances compétitives par rapport aux modèles entraînés avec une supervision plus coûteuse. Bien qu'il soit naturellement inférieur aux modèles de référence entièrement supervisés, il surpasse significativement les méthodes faiblement supervisées au niveau vidéo, en particulier sur les jeux de données avec de nombreuses actions par vidéo. Cela valide l'hypothèse que la narration fournit un signal de supervision "intermédiaire" précieux.
4.3 Études d'ablation
Les études d'ablation confirment l'importance de chaque composant :
- Multimodalité : L'utilisation des caractéristiques RVB+Flux+Audio surpasse systématiquement toute modalité unique.
- Attention temporelle : Le mécanisme d'attention proposé est crucial pour filtrer les trames non pertinentes et améliorer la précision de localisation.
- Narration vs. Niveau vidéo : L'entraînement avec des étiquettes de narration donne de meilleurs résultats de détection que l'utilisation uniquement d'étiquettes au niveau vidéo sur EPIC Kitchens, prouvant la teneur en information supérieure de la première.
5. Analyse technique & Cadre méthodologique
5.1 Formulation mathématique
L'objectif d'apprentissage central peut être formulé comme une combinaison d'une perte de classification et d'une perte de localisation temporelle guidée par le signal de narration faible. Soit $V = \{f_t\}_{t=1}^T$ une séquence de caractéristiques de trames vidéo. Pour une étiquette de narration $y_n$ avec l'horodatage $\tau_n$, le modèle produit des scores de classe au niveau de la trame $s_t^c$. Un poids d'attention temporelle $\alpha_t$ est appris pour chaque trame. La perte de classification pour l'action narrée est une somme pondérée : $$\mathcal{L}_{cls} = -\log\left(\frac{\exp(\sum_t \alpha_t s_t^{y_n})}{\sum_c \exp(\sum_t \alpha_t s_t^c)}\right)$$ Simultanément, une perte de lissage ou de parcimonie temporelle $\mathcal{L}_{temp}$ est appliquée à $\alpha_t$ pour encourager une distribution pointue autour de l'instance d'action. La perte totale est $\mathcal{L} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{temp}$.
5.2 Exemple de cadre d'analyse
Étude de cas : Analyse des modes d'échec du modèle
Pour comprendre les limites du modèle, nous pouvons construire un cadre d'analyse :
- Inspection des données : Identifier les vidéos où la prédiction du modèle (segment temporel) a un IoU faible avec la vérité terrain. Examiner manuellement ces vidéos et leurs narrations.
- Catégorisation : Catégoriser les échecs. Les catégories courantes incluent :
- Ambiguïté de la narration : La narration (par exemple, "Je prépare à manger") est trop générale et ne correspond pas à une seule instance d'action courte.
- Actions composées : L'action narrée (par exemple, "prendre un couteau et couper un légume") consiste en plusieurs sous-actions, ce qui perturbe le modèle.
- Dominance de l'arrière-plan : L'arrière-plan visuel de l'action est trop encombré ou similaire à d'autres trames sans action.
- Cause racine & Atténuation : Pour "Ambiguïté de la narration", la solution peut impliquer l'utilisation d'un modèle de langage plus sophistiqué pour analyser la granularité de la narration ou l'incorporation d'un signal d'apprentissage qui pénalise les détections trop longues pour des étiquettes vagues.
6. Discussion & Directions futures
Idée centrale : Ce travail est une astuce pragmatique pour contourner le goulot d'étranglement de l'annotation des données. Il identifie correctement que dans le monde réel, les signaux de supervision "gratuits" comme les narrations audio, les sous-titres ou les transcriptions ASR sont abondants. La véritable contribution n'est pas une nouvelle architecture neuronale, mais une preuve de concept convaincante que nous pouvons – et devrions – concevoir des systèmes d'apprentissage pour digérer ces signaux bruités du monde réel plutôt que d'attendre des données parfaitement organisées.
Enchaînement logique : L'argumentation est solide : l'annotation au niveau de l'instance n'est pas viable à grande échelle → les étiquettes au niveau vidéo sont trop faibles pour les vidéos complexes → la narration audio est un terrain d'entente peu coûteux et informatif → voici un modèle qui peut l'utiliser. L'utilisation d'EPIC Kitchens, avec sa distribution dense d'actions, est un coup de maître pour souligner la faille de la supervision au niveau vidéo.
Points forts & Faiblesses : Le point fort est son aspect pratique et sa proposition de valeur claire pour les applications industrielles (par exemple, modération de contenu, recherche vidéo, aide à la vie autonome) où le coût est important. La faiblesse, comme pour de nombreuses méthodes faiblement supervisées, est le plafond de performance. Le modèle est fondamentalement limité par le bruit dans sa supervision. C'est une excellente première étape, mais pas une solution finale pour les applications à enjeux élevés nécessitant un timing précis.
Perspectives actionnables : Pour les chercheurs : Explorer l'auto-supervision cross-modale (par exemple, en s'appuyant sur les travaux de Contrastive Language-Image Pre-training (CLIP) de Radford et al.) pour réduire davantage la dépendance à toute étiquette textuelle. Pour les praticiens : Appliquer immédiatement ce paradigme aux jeux de données vidéo internes avec des transcriptions ou des journaux audio disponibles. Commencer par traiter les horodatages dans les journaux comme des points de narration faibles.
Directions futures :
- Exploitation des grands modèles vision-langage (VLMs) : Des modèles comme CLIP ou BLIP-2 fournissent des représentations visuelles-textuelles alignées puissantes. Les travaux futurs pourraient les utiliser comme fortes connaissances a priori pour mieux ancrer les phrases narrées dans le contenu vidéo, surmontant potentiellement certains problèmes d'ambiguïté.
- Généralisation cross-jeu de données : Un modèle entraîné sur des vidéos égocentriques de cuisine narrées (EPIC) peut-il détecter des actions dans des vidéos sportives à la troisième personne avec un commentaire audio ? Explorer la transférabilité de l'apprentissage guidé par narration est clé.
- De la détection à l'anticipation : La narration décrit souvent une action au moment où elle se produit ou juste après. Ce signal peut-il être utilisé pour apprendre des modèles d'anticipation d'actions, prédisant une action légèrement avant qu'elle ne se produise ?
- Intégration avec l'apprentissage actif : L'incertitude du modèle ou ses poids d'attention pourraient être utilisés pour interroger un annotateur humain pour clarification uniquement sur les paires narration-vidéo les plus confuses, créant un système d'annotation humain-dans-la-boucle très efficace.
7. Références
- Ye, K., & Kovashka, A. (2021). Weakly-Supervised Action Detection Guided by Audio Narration. In Proceedings of the ... (PDF Source).
- Damen, D., et al. (2018). Scaling Egocentric Vision: The EPIC-KITCHENS Dataset. European Conference on Computer Vision (ECCV).
- Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. International Conference on Machine Learning (ICML).
- Carreira, J., & Zisserman, A. (2017). Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. Conference on Computer Vision and Pattern Recognition (CVPR).
- Wang, L., et al. (2016). Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. European Conference on Computer Vision (ECCV).
- Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. International Conference on Computer Vision (ICCV).