Выбрать язык

Слабо контролируемое детектирование действий с использованием аудио-наррации

Исследование о том, как использовать зашумлённую аудио-наррацию в качестве слабого контроля для обучения моделей детектирования действий в видео, снижая затраты на разметку и используя мультимодальные признаки.
audio-novel.com | PDF Size: 0.9 MB
Оценка: 4.5/5
Ваша оценка
Вы уже оценили этот документ
Обложка PDF-документа - Слабо контролируемое детектирование действий с использованием аудио-наррации

1. Введение

Видео представляют собой богатый мультимодальный источник данных для машинного обучения, включающий пространственную (визуальную), временную и часто аудиоинформацию. Однако полное использование этого потенциала затруднено чрезмерной стоимостью получения точных, покомпонентных аннотаций (время начала, время окончания, метка действия) для детектирования действий в необрезанных видео. Данная работа решает эту проблему, предлагая новый слабо контролируемый подход, который использует недорогой и легкодоступный аудио-нарратив в качестве основного контрольного сигнала. Ключевая идея заключается в том, что наррации, хотя и временно неточны (предоставляют лишь приблизительное время начала, как в наборе данных EPIC Kitchens), содержат ценные семантические подсказки, которые могут направлять модель на соответствующие сегменты видео и обучать эффективные детекторы действий, значительно снижая зависимость от аннотаций.

2. Смежные работы и постановка задачи

2.1 Парадигмы контроля в детектировании действий

Область временного детектирования действий оперирует тремя основными парадигмами контроля:

  • Полный контроль: Требует дорогостоящих покомпонентных аннотаций (точные временные границы). Приводит к высокой производительности, но не масштабируется.
  • Слабый контроль (уровень видео): Использует только метки классов на уровне всего видео. Предполагает мало действий на видео (например, в THUMOS14 ~1 класс/видео), что нереалистично для длинных, сложных видео, таких как в EPIC Kitchens (в среднем ~35 классов/видео).
  • Слабый контроль (наррация): Предлагаемая парадигма. Использует зашумлённые, одноточечные во времени транскрипты аудио-наррации в качестве слабых меток. Это более информативно, чем метки уровня видео, но дешевле, чем полная покомпонентная разметка.

Сравнение наборов данных

THUMOS14: В среднем 1.08 классов/видео. EPIC Kitchens: В среднем 34.87 классов/видео. Этот разительный контраст подчёркивает ограниченность традиционных методов WSAD в реальных сценариях.

2.2 Проблема слабого контроля

Основная проблема — это временное несоответствие между временной меткой наррации и фактическим экземпляром действия. Модель должна научиться подавлять нерелевантные фоновые кадры и фокусироваться на правильном временном сегменте, связанном с озвученным действием, несмотря на зашумлённую метку.

3. Предлагаемый метод

3.1 Обзор архитектуры модели

Предлагаемая модель представляет собой мультимодальную архитектуру, предназначенную для обработки и слияния признаков из RGB-кадров, оптического потока (движения) и фоновых аудиодорожек. Ключевым компонентом является механизм временного внимания, который учится взвешивать важность различных видеокадров на основе их релевантности предоставленной метке аудио-наррации.

3.2 Обучение на зашумлённой наррации

Вместо того чтобы рассматривать временную метку наррации как жёсткую метку, модель рассматривает её как слабую подсказку. Цель обучения заключается в том, чтобы поощрять высокие оценки активации для кадров, временно близких к точке наррации для правильного класса действия, одновременно минимизируя активации для всех остальных кадров и классов. Это аналогично форме обучения с множеством экземпляров (MIL), где видео — это «мешок» кадров, а положительный «экземпляр» (действие) находится где-то рядом с озвученной точкой.

3.3 Слияние мультимодальных признаков

Признаки из разных модальностей (RGB для внешнего вида, поток для движения, аудио для фонового звука) извлекаются с использованием предобученных сетей (например, I3D для RGB/потока, VGGish для аудио). Затем эти признаки объединяются, либо путём ранней конкатенации, либо с помощью более сложного кросс-модального модуля внимания, чтобы сформировать устойчивое совместное представление для классификации и локализации действий.

4. Эксперименты и результаты

4.1 Набор данных и настройка

Основная оценка проводится на наборе данных EPIC Kitchens 100, крупномасштабном эгоцентричном видео-наборе с плотными аннотациями действий и соответствующими аудио-наррациями. Модель обучается только с использованием времени начала наррации и транскрибированных меток «глагол-существительное». Производительность измеряется с использованием стандартных метрик временного детектирования действий, таких как средняя точность (mAP) при различных порогах временного пересечения по объединению (tIoU).

4.2 Количественные результаты

В работе показано, что предложенная модель, обученная исключительно с контролем через наррацию, демонстрирует конкурентоспособную производительность по сравнению с моделями, обученными с более дорогим контролем. Хотя она, естественно, отстаёт от полностью контролируемых базовых моделей, она значительно превосходит методы слабого контроля уровня видео, особенно на наборах данных со многими действиями на видео. Это подтверждает гипотезу о том, что наррация предоставляет ценный «промежуточный» контрольный сигнал.

4.3 Абляционные исследования

Абляционные исследования подтверждают важность каждого компонента:

  • Мультимодальность: Использование признаков RGB+Поток+Аудио последовательно превосходит любую отдельную модальность.
  • Временное внимание: Предложенный механизм внимания имеет решающее значение для фильтрации нерелевантных кадров и повышения точности локализации.
  • Наррация против уровня видео: Обучение с метками наррации даёт лучшие результаты детектирования, чем использование только меток уровня видео на EPIC Kitchens, что доказывает превосходную информативность первого подхода.

5. Технический анализ и фреймворк

5.1 Математическая формулировка

Основная цель обучения может быть сформулирована как комбинация функции потерь для классификации и функции потерь для временной локализации, направляемой слабым сигналом наррации. Пусть $V = \{f_t\}_{t=1}^T$ — последовательность признаков видеокадров. Для метки наррации $y_n$ с временной меткой $\tau_n$ модель выдаёт оценки классов на уровне кадра $s_t^c$. Для каждого кадра вычисляется вес временного внимания $\alpha_t$. Функция потерь для классификации озвученного действия представляет собой взвешенную сумму: $$\mathcal{L}_{cls} = -\log\left(\frac{\exp(\sum_t \alpha_t s_t^{y_n})}{\sum_c \exp(\sum_t \alpha_t s_t^c)}\right)$$ Одновременно к $\alpha_t$ применяется функция потерь на временное сглаживание или разреженность $\mathcal{L}_{temp}$, чтобы стимулировать пиковое распределение вокруг экземпляра действия. Общая функция потерь: $\mathcal{L} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{temp}$.

5.2 Пример аналитического фреймворка

Пример анализа: Изучение типовых ошибок модели
Чтобы понять ограничения модели, можно построить аналитический фреймворк:

  1. Инспекция данных: Определить видео, где предсказание модели (временной сегмент) имеет низкий IoU с истинными данными. Вручную просмотреть эти видео и их наррации.
  2. Категоризация: Классифицировать ошибки. Распространённые категории включают:
    • Неоднозначность наррации: Наррация (например, «Я готовлю еду») слишком общая и не соответствует одному короткому экземпляру действия.
    • Составные действия: Озвученное действие (например, «взять нож и нарезать овощ») состоит из нескольких поддействий, что сбивает модель с толку.
    • Доминирование фона: Визуальный фон для действия слишком загромождён или похож на другие кадры без действия.
  3. Причина и смягчение: Для «Неоднозначности наррации» решением может быть использование более сложной языковой модели для анализа гранулярности наррации или включение обучающего сигнала, который штрафует слишком длинные детекции для расплывчатых меток.
Этот структурированный анализ выходит за рамки простого отчёта по метрикам и переходит к практической диагностике модели.

6. Обсуждение и направления будущих исследований

Ключевая идея: Эта работа представляет собой прагматичное решение проблемы узкого места в аннотировании данных. Она правильно определяет, что в реальном мире «бесплатные» контрольные сигналы, такие как аудио-наррации, субтитры или транскрипты ASR, широко доступны. Реальный вклад заключается не в новой нейронной архитектуре, а в убедительном доказательстве концепции, что мы можем — и должны — проектировать обучающиеся системы для обработки этих зашумлённых, реальных сигналов, а не ждать идеально подготовленных данных.

Логика изложения: Аргументация убедительна: покомпонентная аннотация неустойчива для масштабирования → метки уровня видео слишком слабы для сложных видео → аудио-наррация — это дешёвая, информативная золотая середина → вот модель, которая может её использовать. Использование EPIC Kitchens с его плотным распределением действий — блестящий ход, чтобы подчеркнуть недостаток контроля уровня видео.

Сильные стороны и недостатки: Сильная сторона — практичность и чёткое ценностное предложение для промышленных применений (например, модерация контента, поиск по видео, системы поддержки пожилых людей), где важна стоимость. Недостаток, как и у многих методов слабого контроля, — потолок производительности. Модель принципиально ограничена шумом в её контроле. Это отличный первый шаг, но не окончательное решение для высокоответственных приложений, требующих точного тайминга.

Практические выводы: Для исследователей: Изучайте кросс-модальное самообучение (например, используя наработки из Contrastive Language-Image Pre-training (CLIP) от Radford et al.), чтобы ещё больше снизить зависимость от любых текстовых меток. Для практиков: Немедленно применяйте эту парадигму к внутренним видео-наборам данных с доступными транскриптами или аудио-логами. Начните с того, чтобы рассматривать временные метки в логах как слабые точки наррации.

Направления будущих исследований:

  • Использование больших визуально-языковых моделей (VLMs): Модели, такие как CLIP или BLIP-2, предоставляют мощные согласованные визуально-текстовые представления. Будущие работы могут использовать их в качестве сильных априорных знаний для лучшего привязывания озвученных фраз к видео-контенту, потенциально преодолевая некоторые проблемы неоднозначности.
  • Обобщение между наборами данных: Может ли модель, обученная на нарративных эгоцентричных кухонных видео (EPIC), детектировать действия в видео спортивных событий от третьего лица с комментаторским аудио? Исследование переносимости обучения, направляемого наррацией, является ключевым.
  • От детектирования к предсказанию: Наррация часто описывает действие по мере его выполнения или сразу после. Можно ли использовать этот сигнал для обучения моделей предсказания действий, прогнозирующих действие незадолго до его начала?
  • Интеграция с активным обучением: Неопределённость модели или веса внимания могут быть использованы для запроса к человеку-аннотатору для уточнения только самых запутанных пар «наррация-видео», создавая высокоэффективную систему аннотирования с участием человека в цикле.

7. Ссылки

  1. Ye, K., & Kovashka, A. (2021). Weakly-Supervised Action Detection Guided by Audio Narration. In Proceedings of the ... (PDF Source).
  2. Damen, D., et al. (2018). Scaling Egocentric Vision: The EPIC-KITCHENS Dataset. European Conference on Computer Vision (ECCV).
  3. Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. International Conference on Machine Learning (ICML).
  4. Carreira, J., & Zisserman, A. (2017). Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. Conference on Computer Vision and Pattern Recognition (CVPR).
  5. Wang, L., et al. (2016). Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. European Conference on Computer Vision (ECCV).
  6. Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. International Conference on Computer Vision (ICCV).