1. مقدمه
ویدیوها منبعی غنی و چندوجهی برای یادگیری ماشین هستند که اطلاعات فضایی (بصری)، زمانی و اغلب شنیداری را در بر میگیرند. با این حال، استفاده کامل از این پتانسیل به دلیل هزینه سرسامآور تهیه حاشیهنویسیهای دقیق در سطح نمونه (زمان شروع، زمان پایان، برچسب عمل) برای تشخیص عمل در ویدیوهای نامتقارن، با مانع مواجه شده است. این مقاله با ارائه رویکردی نوآورانه مبتنی بر نظارت ضعیف که از روایت صوتی ارزان و بهراحتی در دسترس به عنوان سیگنال نظارتی اولیه استفاده میکند، به این گلوگاه میپردازد. بینش اصلی این است که روایتها، اگرچه از نظر زمانی نادقیق هستند (فقط یک زمان شروع تقریبی مانند مجموعه داده EPIC Kitchens ارائه میدهند)، حاوی سرنخهای معنایی ارزشمندی هستند که میتوانند مدلی را هدایت کنند تا به بخشهای مرتبط ویدیو توجه کند و آشکارسازهای عمل مؤثری را بیاموزد و وابستگی به حاشیهنویسی را به میزان قابل توجهی کاهش دهد.
2. کارهای مرتبط و بیان مسئله
2.1 پارادایمهای نظارت در تشخیص عمل
حوزه تشخیص عمل زمانی تحت سه پارادایم نظارتی اصلی عمل میکند:
- تماماً نظارتشده: نیازمند حاشیهنویسیهای گرانقیمت در سطح نمونه (مرزهای زمانی دقیق) است. منجر به عملکرد بالا میشود اما مقیاسپذیر نیست.
- نظارت ضعیف (سطح ویدیو): فقط از برچسبهای کلاس در سطح ویدیو استفاده میکند. فرض میکند که تعداد کمی عمل در هر ویدیو وجود دارد (مثلاً THUMOS14 دارای ~1 کلاس/ویدیو است)، که برای ویدیوهای طولانی و پیچیده مانند ویدیوهای EPIC Kitchens (میانگین ~35 کلاس/ویدیو) غیرواقعی است.
- نظارت ضعیف (روایت): پارادایم پیشنهادی. از رونوشتهای روایت صوتی نویزی با یک مهر زمانی به عنوان برچسب ضعیف استفاده میکند. این روش اطلاعاتیتر از برچسبهای سطح ویدیو است اما ارزانتر از حاشیهنویسی کامل نمونه است.
مقایسه مجموعه داده
THUMOS14: میانگین 1.08 کلاس/ویدیو. EPIC Kitchens: میانگین 34.87 کلاس/ویدیو. این تضاد آشکار، محدودیت روشهای سنتی WSAD را در سناریوهای دنیای واقعی برجسته میکند.
2.2 چالش نظارت ضعیف
چالش اصلی، عدم همترازی زمانی بین مهر زمانی روایت و نمونه عمل واقعی است. مدل باید بیاموزد که فریمهای پسزمینه نامربوط را سرکوب کند و بر بخش زمانی صحیح مرتبط با عمل روایتشده تمرکز کند، علیرغم برچسب نویزی.
3. روش پیشنهادی
3.1 نمای کلی معماری مدل
مدل پیشنهادی یک معماری چندوجهی است که برای پردازش و ادغام ویژگیهای حاصل از فریمهای RGB، جریان نوری (حرکت) و قطعات صوتی محیطی طراحی شده است. یک مؤلفه اصلی، مکانیزم توجه زمانی است که یاد میگیرد اهمیت فریمهای مختلف ویدیو را بر اساس ارتباط آنها با برچسب روایت صوتی ارائهشده وزندهی کند.
3.2 یادگیری از روایت نویزی
به جای برخورد با مهر زمانی روایت به عنوان یک برچسب سخت، مدل آن را به عنوان یک سرنخ ضعیف در نظر میگیرد. هدف یادگیری، تشویق نمرات فعالسازی بالا برای فریمهایی است که از نظر زمانی به نقطه روایت برای کلاس عمل صحیح نزدیک هستند، در حالی که فعالسازیها را برای تمام فریمها و کلاسهای دیگر به حداقل میرساند. این شبیه به شکلی از یادگیری چند نمونهای (MIL) است که در آن ویدیو یک "کیسه" از فریمها است و "نمونه" مثبت (عمل) جایی در نزدیکی نقطه روایتشده قرار دارد.
3.3 ادغام ویژگیهای چندوجهی
ویژگیهای حاصل از وجههای مختلف (RGB برای ظاهر، جریان نوری برای حرکت، صدا برای صدای محیط) با استفاده از شبکههای از پیش آموزشدیده (مانند I3D برای RGB/Flow، VGGish برای صدا) استخراج میشوند. سپس این ویژگیها، یا از طریق الحاق زودهنگام یا از طریق یک ماژول توجه متقابل وجهی پیچیدهتر، ادغام میشوند تا یک بازنمایی مشترک قوی برای طبقهبندی و مکانیابی عمل تشکیل شود.
4. آزمایشها و نتایج
4.1 مجموعه داده و تنظیمات
ارزیابی اولیه بر روی مجموعه داده EPIC Kitchens 100 انجام شده است، که یک مجموعه داده ویدیویی خودمحور در مقیاس بزرگ با حاشیهنویسیهای متراکم عمل و روایتهای صوتی متناظر است. مدل تنها با استفاده از زمانهای شروع روایت و برچسبهای فعل-اسم رونویسیشده آموزش میبیند. عملکرد با استفاده از معیارهای استاندارد تشخیص عمل زمانی مانند میانگین دقت متوسط (mAP) در آستانههای مختلف اشتراک بر اتحاد زمانی (tIoU) اندازهگیری میشود.
4.2 نتایج کمی
مقاله نشان میدهد که مدل پیشنهادی، که تنها با نظارت روایت آموزش دیده است، در مقایسه با مدلهای آموزشدیده با نظارت گرانتر، به عملکرد رقابتی دست مییابد. اگرچه به طور طبیعی از خطوط پایه تماماً نظارتشده عقب میماند، اما به طور قابل توجهی از روشهای نظارت ضعیف سطح ویدیو بهتر عمل میکند، به ویژه در مجموعه دادههایی با تعداد زیادی عمل در هر ویدیو. این موضوع، فرضیه اینکه روایت یک سیگنال نظارتی ارزشمند "میانراه" ارائه میدهد را تأیید میکند.
4.3 مطالعات حذفی
مطالعات حذفی اهمیت هر مؤلفه را تأیید میکنند:
- چندوجهی بودن: استفاده از ویژگیهای RGB+Flow+Audio به طور مداوم از هر وجه منفرد بهتر عمل میکند.
- توجه زمانی: مکانیزم توجه پیشنهادی برای فیلتر کردن فریمهای نامربوط و بهبود دقت مکانیابی حیاتی است.
- روایت در مقابل سطح ویدیو: آموزش با برچسبهای روایت، نتایج تشخیص بهتری نسبت به استفاده تنها از برچسبهای سطح ویدیو در EPIC Kitchens به دست میدهد، که محتوای اطلاعاتی برتر اولی را ثابت میکند.
5. تحلیل فنی و چارچوب
5.1 فرمولبندی ریاضی
هدف یادگیری اصلی را میتوان به عنوان ترکیبی از یک تابع زیان طبقهبندی و یک تابع زیان مکانیابی زمانی هدایتشده توسط سیگنال روایت ضعیف قالببندی کرد. فرض کنید $V = \{f_t\}_{t=1}^T$ دنبالهای از ویژگیهای فریم ویدیو باشد. برای یک برچسب روایت $y_n$ با مهر زمانی $\tau_n$، مدل نمرات کلاس در سطح فریم $s_t^c$ را تولید میکند. یک وزن توجه زمانی $\alpha_t$ برای هر فریم یاد گرفته میشود. تابع زیان طبقهبندی برای عمل روایتشده یک مجموع وزنی است: $$\mathcal{L}_{cls} = -\log\left(\frac{\exp(\sum_t \alpha_t s_t^{y_n})}{\sum_c \exp(\sum_t \alpha_t s_t^c)}\right)$$ همزمان، یک تابع زیان هموارسازی یا پراکندگی زمانی $\mathcal{L}_{temp}$ بر روی $\alpha_t$ اعمال میشود تا توزیعی قلهای در اطراف نمونه عمل تشویق شود. تابع زیان کل $\mathcal{L} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{temp}$ است.
5.2 مثال چارچوب تحلیل
مطعه موردی: تحلیل حالتهای شکست مدل
برای درک محدودیتهای مدل، میتوانیم یک چارچوب تحلیل بسازیم:
- بازرسی داده: ویدیوهایی را شناسایی کنید که پیشبینی مدل (بخش زمانی) دارای IoU پایینی با حقیقت زمینی است. این ویدیوها و روایتهای آنها را به صورت دستی مرور کنید.
- دستهبندی: شکستها را دستهبندی کنید. دستههای رایج شامل موارد زیر است:
- ابهام روایت: روایت (مثلاً "دارم غذا آماده میکنم") بسیار سطح بالا است و با یک نمونه عمل کوتاه و منفرد همتراز نیست.
- اعمال مرکب: عمل روایتشده (مثلاً "چاقو را بردار و سبزی را خرد کن") از چندین زیرعمل تشکیل شده است که مدل را گیج میکند.
- تسلط پسزمینه: پسزمینه بصری برای عمل بسیار شلوغ یا مشابه فریمهای غیرعمل دیگر است.
- علت ریشهای و کاهش اثر: برای "ابهام روایت"، راهحل ممکن است شامل استفاده از یک مدل زبانی پیچیدهتر برای تجزیه دانهبندی روایت یا گنجاندن یک سیگنال یادگیری باشد که تشخیصهای بیش از حد طولانی را برای برچسبهای مبهم جریمه میکند.
6. بحث و جهتگیریهای آینده
بینش اصلی: این کار یک راهحل عملی برای دور زدن گلوگاه حاشیهنویسی داده است. این کار به درستی شناسایی میکند که در دنیای واقعی، سیگنالهای نظارتی "رایگان" مانند روایتهای صوتی، زیرنویسها یا رونوشتهای ASR فراوان هستند. مشارکت واقعی، یک معماری عصبی نوآورانه نیست، بلکه یک اثبات مفهوم قانعکننده است که ما میتوانیم—و باید—سیستمهای یادگیری را طراحی کنیم تا این سیگنالهای نویزی و واقعگرا را هضم کنند، نه اینکه منتظر دادههای کاملاً پالایششده بمانیم.
جریان منطقی: استدلال محکم است: حاشیهنویسی در سطح نمونه برای مقیاس پایدار نیست → برچسبهای سطح ویدیو برای ویدیوهای پیچیده بسیار ضعیف هستند → روایت صوتی یک میانراه ارزان و اطلاعاتی است → اینجا مدلی است که میتواند از آن استفاده کند. استفاده از EPIC Kitchens، با توزیع متراکم عمل آن، یک حرکت استادانه برای برجسته کردن نقص نظارت سطح ویدیو است.
نقاط قوت و ضعف: نقطه قوت آن، عملی بودن و ارزشافزایی واضح آن برای کاربردهای صنعتی (مانند نظارت بر محتوا، جستجوی ویدیو، زندگی کمکی) است که هزینه در آنها مهم است. نقطه ضعف، مانند بسیاری از روشهای نظارت ضعیف، سقف عملکرد است. مدل اساساً توسط نویز در نظارت آن محدود شده است. این یک گام اول عالی است، اما راهحل نهایی برای کاربردهای پرریسک که نیاز به زمانبندی دقیق دارند نیست.
بینشهای عملی: برای پژوهشگران: نظارت خودی متقابل وجهی را بررسی کنید (مثلاً با استفاده از کار Contrastive Language-Image Pre-training (CLIP) توسط Radford و همکاران) تا وابستگی به هر برچسب متنی را بیشتر کاهش دهید. برای متخصصان: بلافاصله این پارادایم را روی مجموعه دادههای ویدیویی داخلی با رونوشتها یا گزارشهای صوتی موجود اعمال کنید. با برخورد با مهرهای زمانی در گزارشها به عنوان نقاط روایت ضعیف شروع کنید.
جهتگیریهای آینده:
- بهرهگیری از مدلهای بزرگ دیداری-زبانی (VLMs): مدلهایی مانند CLIP یا BLIP-2 بازنماییهای همتراز قدرتمند بصری-متنی ارائه میدهند. کار آینده میتواند از اینها به عنوان پیشفرضهای قوی استفاده کند تا عبارات روایتشده را بهتر در محتوای ویدیویی مستقر کند و به طور بالقوه بر برخی مسائل ابهام غلبه کند.
- تعمیم متقابل مجموعه داده: آیا مدلی که روی ویدیوهای خودمحور آشپزخانه روایتشده (EPIC) آموزش دیده است، میتواند اعمال را در ویدیوهای ورزشی شخص سوم با صدای مفسر تشخیص دهد؟ بررسی قابلیت انتقال یادگیری هدایتشده توسط روایت کلیدی است.
- از تشخیص به پیشبینی: روایت اغلب یک عمل را در حین وقوع یا بلافاصله پس از آن توصیف میکند. آیا میتوان از این سیگنال برای آموزش مدلهای پیشبینی عمل استفاده کرد، که عملی را کمی قبل از وقوع آن پیشبینی میکنند؟
- ادغام با یادگیری فعال: عدم قطعیت مدل یا وزنهای توجه آن میتواند برای پرسش از یک حاشیهنویس انسانی برای روشنسازی تنها روی گیجکنندهترین جفتهای روایت-ویدیو استفاده شود و یک سیستم حاشیهنویسی انسان در حلقه بسیار کارآمد ایجاد کند.
7. مراجع
- Ye, K., & Kovashka, A. (2021). Weakly-Supervised Action Detection Guided by Audio Narration. In Proceedings of the ... (PDF Source).
- Damen, D., et al. (2018). Scaling Egocentric Vision: The EPIC-KITCHENS Dataset. European Conference on Computer Vision (ECCV).
- Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. International Conference on Machine Learning (ICML).
- Carreira, J., & Zisserman, A. (2017). Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. Conference on Computer Vision and Pattern Recognition (CVPR).
- Wang, L., et al. (2016). Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. European Conference on Computer Vision (ECCV).
- Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. International Conference on Computer Vision (ICCV).