1. مقدمه
ویدیوها منبعی غنی و چندوجهی برای یادگیری ماشین هستند که حاوی اطلاعات همگامشده مکانی (RGB)، زمانی (حرکت) و شنیداری میباشند. با این حال، بهرهبرداری کامل از این پتانسیل به دلیل هزینه سرسامآور تهیه حاشیهنویسیهای دقیق در سطح نمونه برای وظایفی مانند تشخیص عمل زمانی، با مانع مواجه است. این مقاله با پیشنهاد یک چارچوب یادگیری با نظارت ضعیف که از روایت صوتی ارزان و بهراحتی در دسترس به عنوان سیگنال نظارتی اولیه استفاده میکند، به این چالش میپردازد. فرضیه اصلی این است که همراستایی زمانی بین توصیفات گفتاری و رویدادهای بصری، اگرچه نویزی و نادقیق است، حاوی اطلاعات کافی برای آموزش یک مدل تشخیص عمل مؤثر است و هزینه حاشیهنویسی را به شدت کاهش میدهد.
این کار در چارچوب مجموعه داده EPIC Kitchens، یک مجموعه داده ویدیویی خودمحور در مقیاس بزرگ که در آن راویان فعالیتهای خود را توصیف میکنند، قرار میگیرد. نویسندگان رویکرد خود را از روشهای کاملاً نظارتشده (نیازمند زمانهای شروع/پایان دقیق) و روشهای سنتی با نظارت ضعیف در سطح ویدیو متمایز میکنند و روایت صوتی را به عنوان یک نظارت "میانه" معرفی میکنند که از اولی ارزانتر و از دومی اطلاعاتبخشتر است.
2. کارهای مرتبط و بیان مسئله
2.1 پارادایمهای نظارت در تشخیص عمل
مقاله به وضوح سه سطح نظارت را ترسیم میکند:
- سطح نمونه: نیازمند حاشیهنویسیهای سهتایی پرهزینه (زمان شروع، زمان پایان، کلاس عمل) است. منجر به مدلهای حساس به مرز با دقت بالا میشود اما مقیاسپذیر نیست.
- سطح ویدیو: تنها نیازمند فهرستی از کلاسهای عمل موجود در کل ویدیو است. در تشخیص عمل با نظارت ضعیف (WSAD) رایج است اما زمانی که ویدیوها حاوی اعمال زیادی هستند (مثلاً EPIC Kitchens دارای ~35 کلاس/ویدیو در مقابل ~1 کلاس/ویدیو در THUMOS) با مشکل مواجه میشود.
- سطح روایت صوتی: یک برچسب زمانی تقریبی و تک برای هر عمل توصیفشده ارائه میدهد (شکل 1 را ببینید). این همان نظارت "ضعیف" مورد بررسی در اینجا است — از نظر زمانی همراستاست اما دقیق نیست.
2.2 مجموعه داده EPIC Kitchens و روایت صوتی
مجموعه داده EPIC Kitchens محور اصلی این کار است. ویژگی منحصربهفرد آن، ردیاب روایت صوتی است که در آن شرکتکنندگان فعالیتهای خود را روایت میکنند. این ردیاب رونویسی و به برچسبهای عمل فعل-اسم (مانند "بستن در") با یک برچسب زمانی تقریبی مرتبط تجزیه میشود. هدف مقاله بهرهبرداری از این نظارت طبیعی و نویزی است.
مقایسه مجموعه دادهها
| مجموعه داده | میانگین طول ویدیو (ثانیه) | میانگین کلاس در هر ویدیو | میانگین عمل در هر ویدیو |
|---|---|---|---|
| THUMOS 14 | 209 | 1.08 | 15.01 |
| EPIC Kitchens | 477 | 34.87 | 89.36 |
جدول 1: پیچیدگی EPIC Kitchens را برجسته میکند و باعث میشود روشهای سنتی WSAD کمتر قابل اعمال باشند.
3. روششناسی پیشنهادی
3.1 مروری بر معماری مدل
مدل پیشنهادی برای پردازش ویدیوهای نامتقارن و یادگیری از نظارت روایت طراحی شده است. احتمالاً شامل یک شبکه پایه برای استخراج ویژگی (مانند I3D، SlowFast) است که بر روی قطعات ویدیو اعمال میشود. یک مؤلفه کلیدی، یک مکانیزم توجه زمانی است که یاد میگیرد فریمها را بر اساس ارتباطشان با برچسب عمل روایتشده وزندهی کند. مدل باید فریمهای پسزمینه نامربوط را سرکوب کرده و به بخش عمل صحیح توجه کند، علیرغم نویز موجود در برچسب زمانی روایت.
3.2 یادگیری از نظارت روایت نویزی
هدف یادگیری حول استفاده از برچسب روایت و برچسب زمانی تقریبی آن میچرخد. یک رویکرد رایج در چنین تنظیماتی، یادگیری چندنمونهای (MIL) است که در آن ویدیو به عنوان یک کیسه از قطعات در نظر گرفته میشود. مدل باید تشخیص دهد که کدام قطعه(ها) با عمل روایتشده مطابقت دارند. تابع زیان احتمالاً یک زیان طبقهبندی برای برچسب عمل را با یک زیان مکانیابی زمانی ترکیب میکند که وزنهای توجه را تشویق میکند تا در اطراف برچسب زمانی روایت ارائهشده به اوج برسند، در حالی که مقداری نوسان زمانی را مجاز میداند. چالش فنی اصلی طراحی یک زیان است که در برابر نویز حاشیهنویسی مقاوم باشد.
3.3 ادغام ویژگیهای چندوجهی
مدل از چندوجهیهای ذاتی در ویدیو بهره میبرد:
- فریمهای RGB: برای اطلاعات مکانی و ظاهری.
- جریان حرکت/جریان نوری: برای ثبت پویاییهای زمانی و حرکت.
- صدای محیطی/صدا: ردیاب صوتی خام، که ممکن است حاوی نشانههای مکمل باشد (مانند صداهای خرد کردن، آب جاری).
4. آزمایشها و نتایج
4.1 تنظیمات آزمایشی
آزمایشها بر روی مجموعه داده EPIC Kitchens انجام شده است. مدل تنها با استفاده از حاشیهنویسیهای روایت صوتی (برچسب فعل-اسم + برچسب زمانی تک) آموزش داده میشود. ارزیابی در برابر حاشیهنویسیهای سطح نمونه واقعی برای اندازهگیری عملکرد تشخیص عمل زمانی انجام میشود، که معمولاً از معیارهایی مانند میانگین دقت متوسط (mAP) در آستانههای مختلف اشتراک بر روی اتحاد زمانی (tIoU) استفاده میکند.
4.2 نتایج و تحلیل
مقاله ادعا میکند که مدل پیشنهادی نشان میدهد که "روایت صوتی نویزی برای یادگیری یک مدل تشخیص عمل خوب کافی است." یافتههای کلیدی احتمالاً شامل موارد زیر است:
- مدل در مقایسه با روشهای آموزشدیده با نظارت پرهزینهتر، به عملکرد رقابتی دست مییابد و شکاف بین نظارت ضعیف و کامل را به طور قابل توجهی کاهش میدهد.
- مکانیزم توجه زمانی با موفقیت یاد میگیرد که اعمال را مکانیابی کند، علیرغم نظارت نادقیق.
- عملکرد از خطوط پایهای که تنها از برچسبهای سطح ویدیو استفاده میکنند، برتر است که سودمندی نشانه زمانی در روایت را تأیید میکند.
4.3 مطالعات حذفی
مطالعات حذفی احتمالاً سهم هر وجه (RGB، جریان، صدا) را نشان میدهند. وجه صوتی (هم به عنوان نظارت و هم به عنوان یک ویژگی ورودی) حیاتی است. این مطالعه همچنین ممکن است تأثیر مکانیزم توجه و مقاومت در برابر سطح نویز در برچسبهای زمانی روایت را تحلیل کند.
5. تحلیل فنی و چارچوب
5.1 بینش اصلی و جریان منطقی
بینش اصلی: باارزشترین دارایی در هوش مصنوعی مدرن، داده بیشتر نیست، بلکه راههای هوشمندانهتر و ارزانتر برای برچسبزنی آن است. این مقاله با برخورد به روایت صوتی انسان نه به عنوان یک حقیقت پایه کامل، بلکه به عنوان یک پیشفرض توجه با سیگنال بالا و هزینه کم، این تز را به خوبی اثبات میکند. جریان منطقی ظریف است: 1) تصدیق گلوگاه حاشیهنویسی در درک ویدیو ("چه")، 2) شناسایی یک سیگنال فراگیر اما کماستفادهشده — توصیفات گفتاری که به طور طبیعی با جریانهای ویدیویی همراستا هستند ("چرا")، و 3) مهندسی یک معماری مدل (MIL + توجه زمانی) که به صراحت برای مقاومت در برابر نویز ذاتی آن سیگنال طراحی شده است ("چگونه"). این یک مورد کلاسیک از پژوهش محور-مسئله، به جای پژوهش محور-روش است.
5.2 نقاط قوت و ضعف
نقاط قوت:
- انتخاب مسئله عملگرا: مستقیماً به مسئله مقیاسپذیری در دنیای واقعی میپردازد. استفاده از EPIC Kitchens، یک مجموعه داده خودمحور، آشفته و پیچیده، بسیار متقاعدکنندهتر از مقاله دیگری در مورد تشخیص فعالیت تقطیعشده است.
- بهرهبرداری چندوجهی: به درستی شناسایی میکند که راهحل در ادغام وجهها (بصری، حرکت، صدا) نه اتکا به یک جریان واحد است، که با روندهای دیدهشده در کارهایی مانند CLIP از OpenAI یا MuLaN از گوگل همراستاست.
- بنیانگذاری برای نظارت نیمه: این کار به طور کامل صحنه را برای مدلهای ترکیبی آماده میکند. همانطور که در مقاله بنیادی CycleGAN (Zhu و همکاران، 2017) اشاره شده، قدرت دادههای جفتنشده یا ضعیف-جفتشده با سازگاری چرخهای و آموزش رقابتی آزاد میشود. به طور مشابه، در اینجا، روایت نویزی میتواند برای راهاندازی اولیه یک مدل استفاده شود، در حالی که مقدار کمی از حاشیهنویسیهای دقیق برای تنظیم دقیق به کار میرود.
- "شکاف روایت": بزرگترین ضعف، یک همبستگی فرضی و غیرکمیشده بین آنچه مردم میگویند و آنچه مدل نیاز دارد ببیند است. روایت ذهنی است، اغلب اعمال "بدیهی" را حذف میکند و از رویدادهای بلادرنگ عقب میماند. مقاله تأثیر این عدم تطابق را به طور عمیق تحلیل نمیکند.
- مقیاسپذیری رویکرد: آیا این روش فراتر از ویدیوهای خودمحور آشپزی قابل تعمیم است؟ روایت در آموزشها یا مستندها رایج است، اما در فیلمهای نظارتی یا حیات وحش غایب است. اتکا به این سیگنال ضعیف خاص ممکن است کاربرد گستردهتر را محدود کند.
- عمق نوآوری فنی: ترکیب MIL و توجه برای نظارت ضعیف، زمینی به خوبی پیمودهشده است (کارهایی مانند W-TALC، A2CL-PT را ببینید). سهم اصلی مقاله ممکن است کاربرد این پارادایم بر روی یک نوع جدید از سیگنال ضعیف (روایت صوتی) باشد، نه یک پیشرفت معماری بنیادی.
5.3 بینشهای عملی
برای متخصصان و پژوهشگران:
- بازرسی دادههای خود برای نظارت "رایگان": قبل از شروع یک پروژه حاشیهنویسی پرهزینه، به دنبال سیگنالهای ضعیف موجود — ردیابهای صوتی، زیرنویسها، فراداده، توصیفات متنی خزیده شده از وب — باشید. این مقاله یک نقشه راه برای بهرهبرداری از آنها است.
- طراحی برای نویز، نه خلوص: هنگام ساخت مدلها برای دادههای دنیای واقعی، اولویت را به معماریهایی با مقاومت ذاتی در برابر نویز (توجه، MIL، یادگیری تضادی) بدهید، نه آنهایی که برچسبهای تمیز را فرض میکنند. تابع زیان به اندازه معماری مدل مهم است.
- تمرکز بر ویدیوهای خودمحور و آموزشی: این میوه در دسترس برای اعمال این پژوهش است. پلتفرمهایی مانند یوتیوب مخازن عظیمی از ویدیوهای آموزشی روایتشده هستند. ساخت ابزارهایی که بتوانند به طور خودکار این ویدیوها را بر اساس روایت تقسیمبندی و برچسبگذاری کنند، ارزش تجاری فوری برای جستجوی محتوا و دسترسیپذیری دارد.
- حرکت به سمت مدلهای ویدیویی "بنیادی": هدف نهایی باید مدلهای بزرگ چندوجهی پیشآموزشدیده بر روی میلیاردها ساعت ویدیوی وب روایتشده باشد (مشابه نحوه آموزش مدلهای زبانی بزرگ بر روی متن). این کار یک قطعه کلیدی از پازل را ارائه میدهد: چگونه از ردیاب صوتی نه تنها به عنوان یک وجه دیگر، بلکه به عنوان یک پل نظارتی برای یادگیری بازنماییهای بصری-زمانی قدرتمند استفاده کنیم، جهتی که به طور فعال توسط آزمایشگاههایی مانند FAIR و DeepMind دنبال میشود.
6. کاربردها و جهتهای آینده
پیامدهای این پژوهش فراتر از معیارهای آکادمیک گسترش مییابد:
- ویرایش خودکار ویدیو و تولید تیزرهای برجسته: برای خالقان محتوا، مدلی که اعمال را از روایت مکانیابی میکند، میتواند به طور خودکار کلیپها یا تیزرهای برجسته را بر اساس کلمات کلیدی گفتاری ایجاد کند.
- افزایش دسترسیپذیری ویدیو: تولید خودکار توصیفات صوتی دقیقتر و دارای برچسب زمانی برای افراد کمبینا با پیوند دادن تشخیص بصری به روایت موجود یا تولیدشده.
- یادگیری رباتیک از مشاهده: رباتها میتوانند رویههای وظیفه را با تماشای ویدیوهای نمایش انسانی روایتشده بیاموزند (یادگیری "تماشا و گوش کن") و نیاز به کنترل از راه دور یا شبیهسازی را کاهش دهند.
- جستجوی ویدیوی نسل بعدی: حرکت از جستجوی کلمه کلیدی در عنوان به "جستجوی لحظهای که کسی میگوید 'تخممرغها را اضافه کن' و واقعاً این کار را انجام میدهد."
- پژوهش آینده: جهتها شامل یکپارچهسازی مدلهای زبانی بزرگ (LLM) برای تجزیه و درک بهتر زمینه روایت، بررسی پیشآموزش خودنظارتی بینوجهی بر روی ویدیوی روایتشده قبل از تنظیم دقیق با نظارت ضعیف، و گسترش چارچوب به تشخیص عمل مکانی-زمانی (مکانیابی "چه کسی چه کاری را کجا انجام میدهد") است.
7. مراجع
- Ye, K., & Kovashka, A. (Year). Weakly-Supervised Action Detection Guided by Audio Narration. [Conference/Journal Name].
- Damen, D., Doughty, H., Farinella, G. M., Fidler, S., Furnari, A., Kazakos, E., ... & Wray, M. (2020). The EPIC-KITCHENS dataset: Collection, challenges and baselines. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (ICCV).
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In International Conference on Machine Learning (ICML).
- Paul, S., Roy, S., & Roy-Chowdhury, A. K. (2018). W-TALC: Weakly-supervised temporal activity localization and classification. In Proceedings of the European Conference on Computer Vision (ECCV).
- Wang, L., Xiong, Y., Lin, D., & Van Gool, L. (2017). Untrimmednets for weakly supervised action recognition and detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR).