انتخاب زبان

تشخیص عمل با نظارت ضعیف هدایت‌شده توسط روایت صوتی

مقاله‌ای پژوهشی که چگونگی استفاده از روایت صوتی نویزی به عنوان نظارت ضعیف برای آموزش مدل‌های تشخیص عمل در ویدیو را بررسی می‌کند تا هزینه‌های حاشیه‌نویسی کاهش یابد و در عین حال از ویژگی‌های چندوجهی استفاده شود.
audio-novel.com | PDF Size: 0.9 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - تشخیص عمل با نظارت ضعیف هدایت‌شده توسط روایت صوتی

1. مقدمه

ویدیوها منبعی غنی و چندوجهی برای یادگیری ماشین هستند که اطلاعات فضایی (بصری)، زمانی و اغلب شنیداری را در بر می‌گیرند. با این حال، استفاده کامل از این پتانسیل به دلیل هزینه سرسام‌آور تهیه حاشیه‌نویسی‌های دقیق در سطح نمونه (زمان شروع، زمان پایان، برچسب عمل) برای تشخیص عمل در ویدیوهای نامتقارن، با مانع مواجه شده است. این مقاله با ارائه رویکردی نوآورانه مبتنی بر نظارت ضعیف که از روایت صوتی ارزان و به‌راحتی در دسترس به عنوان سیگنال نظارتی اولیه استفاده می‌کند، به این گلوگاه می‌پردازد. بینش اصلی این است که روایت‌ها، اگرچه از نظر زمانی نادقیق هستند (فقط یک زمان شروع تقریبی مانند مجموعه داده EPIC Kitchens ارائه می‌دهند)، حاوی سرنخ‌های معنایی ارزشمندی هستند که می‌توانند مدلی را هدایت کنند تا به بخش‌های مرتبط ویدیو توجه کند و آشکارسازهای عمل مؤثری را بیاموزد و وابستگی به حاشیه‌نویسی را به میزان قابل توجهی کاهش دهد.

2. کارهای مرتبط و بیان مسئله

2.1 پارادایم‌های نظارت در تشخیص عمل

حوزه تشخیص عمل زمانی تحت سه پارادایم نظارتی اصلی عمل می‌کند:

  • تماماً نظارت‌شده: نیازمند حاشیه‌نویسی‌های گران‌قیمت در سطح نمونه (مرزهای زمانی دقیق) است. منجر به عملکرد بالا می‌شود اما مقیاس‌پذیر نیست.
  • نظارت ضعیف (سطح ویدیو): فقط از برچسب‌های کلاس در سطح ویدیو استفاده می‌کند. فرض می‌کند که تعداد کمی عمل در هر ویدیو وجود دارد (مثلاً THUMOS14 دارای ~1 کلاس/ویدیو است)، که برای ویدیوهای طولانی و پیچیده مانند ویدیوهای EPIC Kitchens (میانگین ~35 کلاس/ویدیو) غیرواقعی است.
  • نظارت ضعیف (روایت): پارادایم پیشنهادی. از رونوشت‌های روایت صوتی نویزی با یک مهر زمانی به عنوان برچسب ضعیف استفاده می‌کند. این روش اطلاعاتی‌تر از برچسب‌های سطح ویدیو است اما ارزان‌تر از حاشیه‌نویسی کامل نمونه است.

مقایسه مجموعه داده

THUMOS14: میانگین 1.08 کلاس/ویدیو. EPIC Kitchens: میانگین 34.87 کلاس/ویدیو. این تضاد آشکار، محدودیت روش‌های سنتی WSAD را در سناریوهای دنیای واقعی برجسته می‌کند.

2.2 چالش نظارت ضعیف

چالش اصلی، عدم هم‌ترازی زمانی بین مهر زمانی روایت و نمونه عمل واقعی است. مدل باید بیاموزد که فریم‌های پس‌زمینه نامربوط را سرکوب کند و بر بخش زمانی صحیح مرتبط با عمل روایت‌شده تمرکز کند، علیرغم برچسب نویزی.

3. روش پیشنهادی

3.1 نمای کلی معماری مدل

مدل پیشنهادی یک معماری چندوجهی است که برای پردازش و ادغام ویژگی‌های حاصل از فریم‌های RGB، جریان نوری (حرکت) و قطعات صوتی محیطی طراحی شده است. یک مؤلفه اصلی، مکانیزم توجه زمانی است که یاد می‌گیرد اهمیت فریم‌های مختلف ویدیو را بر اساس ارتباط آن‌ها با برچسب روایت صوتی ارائه‌شده وزن‌دهی کند.

3.2 یادگیری از روایت نویزی

به جای برخورد با مهر زمانی روایت به عنوان یک برچسب سخت، مدل آن را به عنوان یک سرنخ ضعیف در نظر می‌گیرد. هدف یادگیری، تشویق نمرات فعال‌سازی بالا برای فریم‌هایی است که از نظر زمانی به نقطه روایت برای کلاس عمل صحیح نزدیک هستند، در حالی که فعال‌سازی‌ها را برای تمام فریم‌ها و کلاس‌های دیگر به حداقل می‌رساند. این شبیه به شکلی از یادگیری چند نمونه‌ای (MIL) است که در آن ویدیو یک "کیسه" از فریم‌ها است و "نمونه" مثبت (عمل) جایی در نزدیکی نقطه روایت‌شده قرار دارد.

3.3 ادغام ویژگی‌های چندوجهی

ویژگی‌های حاصل از وجه‌های مختلف (RGB برای ظاهر، جریان نوری برای حرکت، صدا برای صدای محیط) با استفاده از شبکه‌های از پیش آموزش‌دیده (مانند I3D برای RGB/Flow، VGGish برای صدا) استخراج می‌شوند. سپس این ویژگی‌ها، یا از طریق الحاق زودهنگام یا از طریق یک ماژول توجه متقابل وجهی پیچیده‌تر، ادغام می‌شوند تا یک بازنمایی مشترک قوی برای طبقه‌بندی و مکانیابی عمل تشکیل شود.

4. آزمایش‌ها و نتایج

4.1 مجموعه داده و تنظیمات

ارزیابی اولیه بر روی مجموعه داده EPIC Kitchens 100 انجام شده است، که یک مجموعه داده ویدیویی خودمحور در مقیاس بزرگ با حاشیه‌نویسی‌های متراکم عمل و روایت‌های صوتی متناظر است. مدل تنها با استفاده از زمان‌های شروع روایت و برچسب‌های فعل-اسم رونویسی‌شده آموزش می‌بیند. عملکرد با استفاده از معیارهای استاندارد تشخیص عمل زمانی مانند میانگین دقت متوسط (mAP) در آستانه‌های مختلف اشتراک بر اتحاد زمانی (tIoU) اندازه‌گیری می‌شود.

4.2 نتایج کمی

مقاله نشان می‌دهد که مدل پیشنهادی، که تنها با نظارت روایت آموزش دیده است، در مقایسه با مدل‌های آموزش‌دیده با نظارت گران‌تر، به عملکرد رقابتی دست می‌یابد. اگرچه به طور طبیعی از خطوط پایه تماماً نظارت‌شده عقب می‌ماند، اما به طور قابل توجهی از روش‌های نظارت ضعیف سطح ویدیو بهتر عمل می‌کند، به ویژه در مجموعه داده‌هایی با تعداد زیادی عمل در هر ویدیو. این موضوع، فرضیه اینکه روایت یک سیگنال نظارتی ارزشمند "میان‌راه" ارائه می‌دهد را تأیید می‌کند.

4.3 مطالعات حذفی

مطالعات حذفی اهمیت هر مؤلفه را تأیید می‌کنند:

  • چندوجهی بودن: استفاده از ویژگی‌های RGB+Flow+Audio به طور مداوم از هر وجه منفرد بهتر عمل می‌کند.
  • توجه زمانی: مکانیزم توجه پیشنهادی برای فیلتر کردن فریم‌های نامربوط و بهبود دقت مکانیابی حیاتی است.
  • روایت در مقابل سطح ویدیو: آموزش با برچسب‌های روایت، نتایج تشخیص بهتری نسبت به استفاده تنها از برچسب‌های سطح ویدیو در EPIC Kitchens به دست می‌دهد، که محتوای اطلاعاتی برتر اولی را ثابت می‌کند.

5. تحلیل فنی و چارچوب

5.1 فرمول‌بندی ریاضی

هدف یادگیری اصلی را می‌توان به عنوان ترکیبی از یک تابع زیان طبقه‌بندی و یک تابع زیان مکانیابی زمانی هدایت‌شده توسط سیگنال روایت ضعیف قالب‌بندی کرد. فرض کنید $V = \{f_t\}_{t=1}^T$ دنباله‌ای از ویژگی‌های فریم ویدیو باشد. برای یک برچسب روایت $y_n$ با مهر زمانی $\tau_n$، مدل نمرات کلاس در سطح فریم $s_t^c$ را تولید می‌کند. یک وزن توجه زمانی $\alpha_t$ برای هر فریم یاد گرفته می‌شود. تابع زیان طبقه‌بندی برای عمل روایت‌شده یک مجموع وزنی است: $$\mathcal{L}_{cls} = -\log\left(\frac{\exp(\sum_t \alpha_t s_t^{y_n})}{\sum_c \exp(\sum_t \alpha_t s_t^c)}\right)$$ همزمان، یک تابع زیان هموارسازی یا پراکندگی زمانی $\mathcal{L}_{temp}$ بر روی $\alpha_t$ اعمال می‌شود تا توزیعی قله‌ای در اطراف نمونه عمل تشویق شود. تابع زیان کل $\mathcal{L} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{temp}$ است.

5.2 مثال چارچوب تحلیل

مطعه موردی: تحلیل حالت‌های شکست مدل
برای درک محدودیت‌های مدل، می‌توانیم یک چارچوب تحلیل بسازیم:

  1. بازرسی داده: ویدیوهایی را شناسایی کنید که پیش‌بینی مدل (بخش زمانی) دارای IoU پایینی با حقیقت زمینی است. این ویدیوها و روایت‌های آن‌ها را به صورت دستی مرور کنید.
  2. دسته‌بندی: شکست‌ها را دسته‌بندی کنید. دسته‌های رایج شامل موارد زیر است:
    • ابهام روایت: روایت (مثلاً "دارم غذا آماده می‌کنم") بسیار سطح بالا است و با یک نمونه عمل کوتاه و منفرد هم‌تراز نیست.
    • اعمال مرکب: عمل روایت‌شده (مثلاً "چاقو را بردار و سبزی را خرد کن") از چندین زیرعمل تشکیل شده است که مدل را گیج می‌کند.
    • تسلط پس‌زمینه: پس‌زمینه بصری برای عمل بسیار شلوغ یا مشابه فریم‌های غیرعمل دیگر است.
  3. علت ریشه‌ای و کاهش اثر: برای "ابهام روایت"، راه‌حل ممکن است شامل استفاده از یک مدل زبانی پیچیده‌تر برای تجزیه دانه‌بندی روایت یا گنجاندن یک سیگنال یادگیری باشد که تشخیص‌های بیش از حد طولانی را برای برچسب‌های مبهم جریمه می‌کند.
این تحلیل ساختاریافته فراتر از گزارش ساده معیارها به سمت تشخیص‌های عملی مدل حرکت می‌کند.

6. بحث و جهت‌گیری‌های آینده

بینش اصلی: این کار یک راه‌حل عملی برای دور زدن گلوگاه حاشیه‌نویسی داده است. این کار به درستی شناسایی می‌کند که در دنیای واقعی، سیگنال‌های نظارتی "رایگان" مانند روایت‌های صوتی، زیرنویس‌ها یا رونوشت‌های ASR فراوان هستند. مشارکت واقعی، یک معماری عصبی نوآورانه نیست، بلکه یک اثبات مفهوم قانع‌کننده است که ما می‌توانیم—و باید—سیستم‌های یادگیری را طراحی کنیم تا این سیگنال‌های نویزی و واقع‌گرا را هضم کنند، نه اینکه منتظر داده‌های کاملاً پالایش‌شده بمانیم.

جریان منطقی: استدلال محکم است: حاشیه‌نویسی در سطح نمونه برای مقیاس پایدار نیست → برچسب‌های سطح ویدیو برای ویدیوهای پیچیده بسیار ضعیف هستند → روایت صوتی یک میان‌راه ارزان و اطلاعاتی است → اینجا مدلی است که می‌تواند از آن استفاده کند. استفاده از EPIC Kitchens، با توزیع متراکم عمل آن، یک حرکت استادانه برای برجسته کردن نقص نظارت سطح ویدیو است.

نقاط قوت و ضعف: نقطه قوت آن، عملی بودن و ارزش‌افزایی واضح آن برای کاربردهای صنعتی (مانند نظارت بر محتوا، جستجوی ویدیو، زندگی کمکی) است که هزینه در آن‌ها مهم است. نقطه ضعف، مانند بسیاری از روش‌های نظارت ضعیف، سقف عملکرد است. مدل اساساً توسط نویز در نظارت آن محدود شده است. این یک گام اول عالی است، اما راه‌حل نهایی برای کاربردهای پرریسک که نیاز به زمان‌بندی دقیق دارند نیست.

بینش‌های عملی: برای پژوهشگران: نظارت خودی متقابل وجهی را بررسی کنید (مثلاً با استفاده از کار Contrastive Language-Image Pre-training (CLIP) توسط Radford و همکاران) تا وابستگی به هر برچسب متنی را بیشتر کاهش دهید. برای متخصصان: بلافاصله این پارادایم را روی مجموعه داده‌های ویدیویی داخلی با رونوشت‌ها یا گزارش‌های صوتی موجود اعمال کنید. با برخورد با مهرهای زمانی در گزارش‌ها به عنوان نقاط روایت ضعیف شروع کنید.

جهت‌گیری‌های آینده:

  • بهره‌گیری از مدل‌های بزرگ دیداری-زبانی (VLMs): مدل‌هایی مانند CLIP یا BLIP-2 بازنمایی‌های هم‌تراز قدرتمند بصری-متنی ارائه می‌دهند. کار آینده می‌تواند از این‌ها به عنوان پیش‌فرض‌های قوی استفاده کند تا عبارات روایت‌شده را بهتر در محتوای ویدیویی مستقر کند و به طور بالقوه بر برخی مسائل ابهام غلبه کند.
  • تعمیم متقابل مجموعه داده: آیا مدلی که روی ویدیوهای خودمحور آشپزخانه روایت‌شده (EPIC) آموزش دیده است، می‌تواند اعمال را در ویدیوهای ورزشی شخص سوم با صدای مفسر تشخیص دهد؟ بررسی قابلیت انتقال یادگیری هدایت‌شده توسط روایت کلیدی است.
  • از تشخیص به پیش‌بینی: روایت اغلب یک عمل را در حین وقوع یا بلافاصله پس از آن توصیف می‌کند. آیا می‌توان از این سیگنال برای آموزش مدل‌های پیش‌بینی عمل استفاده کرد، که عملی را کمی قبل از وقوع آن پیش‌بینی می‌کنند؟
  • ادغام با یادگیری فعال: عدم قطعیت مدل یا وزن‌های توجه آن می‌تواند برای پرسش از یک حاشیه‌نویس انسانی برای روشن‌سازی تنها روی گیج‌کننده‌ترین جفت‌های روایت-ویدیو استفاده شود و یک سیستم حاشیه‌نویسی انسان در حلقه بسیار کارآمد ایجاد کند.

7. مراجع

  1. Ye, K., & Kovashka, A. (2021). Weakly-Supervised Action Detection Guided by Audio Narration. In Proceedings of the ... (PDF Source).
  2. Damen, D., et al. (2018). Scaling Egocentric Vision: The EPIC-KITCHENS Dataset. European Conference on Computer Vision (ECCV).
  3. Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. International Conference on Machine Learning (ICML).
  4. Carreira, J., & Zisserman, A. (2017). Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. Conference on Computer Vision and Pattern Recognition (CVPR).
  5. Wang, L., et al. (2016). Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. European Conference on Computer Vision (ECCV).
  6. Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. International Conference on Computer Vision (ICCV).