1. المقدمة
تمثل مقاطع الفيديو مصدرًا غنيًا ومتعدد الوسائط للبيانات في تعلم الآلة، حيث تحتوي على معلومات مكانية (RGB) وزمنية (الحركة) وسمعية متزامنة. ومع ذلك، فإن الاستفادة الكاملة من هذا الإمكانات تعوقها التكلفة الباهظة للحصول على تعليقات توضيحية دقيقة على مستوى المثيل لمهام مثل الكشف الزمني عن الأفعال. تتناول هذه الورقة البحثية هذا التحدي من خلال اقتراح إطار عمل للتعلم بالإشراف الضعيف يستخدم الرواية الصوتية غير المكلفة والمتاحة بسهولة كإشارة إشراف رئيسية. الفرضية الأساسية هي أن المحاذاة الزمنية بين الأوصاف المنطوقة والأحداث المرئية، وإن كانت مشوشة وغير دقيقة، تحتوي على معلومات كافية لتدريب نموذج فعال للكشف عن الأفعال، مما يقلل بشكل كبير من تكاليف التعليق التوضيحي.
يتم وضع هذا العمل في سياق مجموعة بيانات EPIC Kitchens، وهي مجموعة بيانات كبيرة لمقاطع الفيديو من منظور الشخص الأول حيث يروي المشاركون أنشطتهم. يميز المؤلفون منهجهم عن الطرق الخاضعة للإشراف الكامل (التي تتطلب أوقات بدء/نهاية دقيقة) وطرق الإشراف الضعيف التقليدية على مستوى الفيديو، ويضعون الرواية الصوتية كإشراف "وسطي" أرخص من الأول وأكثر إفادة من الأخير.
2. الأعمال ذات الصلة وبيان المشكلة
2.1 نماذج الإشراف في الكشف عن الأفعال
تحدد الورقة بوضوح ثلاثة مستويات للإشراف:
- على مستوى المثيل: يتطلب تعليقات توضيحية ثلاثية باهظة الثمن (وقت البدء، وقت الانتهاء، فئة الفعل). يؤدي إلى نماذج حساسة للحدود بدقة عالية ولكنها غير قابلة للتوسع.
- على مستوى الفيديو: يتطلب فقط قائمة بفئات الأفعال الموجودة في الفيديو بأكمله. شائع في الكشف عن الأفعال بالإشراف الضعيف (WSAD) ولكنه يواجه صعوبة عندما تحتوي مقاطع الفيديو على العديد من الأفعال (على سبيل المثال، تحتوي EPIC Kitchens على ~35 فئة/فيديو مقابل ~1 في THUMOS).
- على مستوى الرواية الصوتية: يوفر طابعًا زمنيًا تقريبيًا واحدًا لكل فعل موصوف (انظر الشكل 1). هذا هو الإشراف "الضعيف" الذي يتم استكشافه هنا - فهو محاذٍ زمنيًا ولكنه غير دقيق.
2.2 مجموعة بيانات EPIC Kitchens والرواية الصوتية
مجموعة بيانات EPIC Kitchens أساسية في هذا العمل. خاصيتها الفريدة هي مسار الرواية الصوتية، حيث روى المشاركون أنشطتهم. يتم نسخ هذا المسار وتحليله إلى تسميات أفعال فعل-اسم (على سبيل المثال، "إغلاق الباب") مع طابع زمني تقريبي مرتبط. هدف الورقة هو تسخير هذا الإشراف الضعيف الطبيعي والمشوش.
مقارنة مجموعات البيانات
| مجموعة البيانات | متوسط طول الفيديو (ثانية) | متوسط الفئات لكل فيديو | متوسط الأفعال لكل فيديو |
|---|---|---|---|
| THUMOS 14 | 209 | 1.08 | 15.01 |
| EPIC Kitchens | 477 | 34.87 | 89.36 |
الجدول 1: يسلط الضوء على تعقيد EPIC Kitchens، مما يجعل طرق WSAD التقليدية أقل قابلية للتطبيق.
3. المنهجية المقترحة
3.1 نظرة عامة على بنية النموذج
تم تصميم النموذج المقترح لمعالجة مقاطع الفيديو غير المقطوعة والتعلم من إشراف الرواية. من المحتمل أن يتضمن شبكة أساسية لاستخراج الميزات (مثل I3D، SlowFast) مطبقة على مقاطع الفيديو. أحد المكونات الرئيسية هو آلية الانتباه الزمني التي تتعلم وزن الإطارات بناءً على علاقتها بتسمية الفعل المروي. يجب على النموذج قمع الإطارات الخلفية غير ذات الصلة والتركيز على مقطع الفعل الصحيح، على الرغم من الضوضاء في الطابع الزمني للرواية.
3.2 التعلم من الإشراف الضعيف للرواية
يدور الهدف التعليمي حول استخدام تسمية الرواية وطابعها الزمني التقريبي. النهج الشائع في مثل هذه الظروف هو التعلم متعدد المثيلات (MIL)، حيث يتم التعامل مع الفيديو كحقيبة من المقاطع. يجب على النموذج تحديد أي مقاطع تتوافق مع الفعل المروي. من المرجح أن تجمع دالة الخسارة بين خسارة التصنيف لتسمية الفعل وخسارة التوطين الزمني التي تشجع أوزان الانتباه على الوصول إلى الذروة حول الطابع الزمني للرواية المقدم، مع السماح ببعض التذبذب الزمني. التحدي التقني الأساسي هو تصميم خسارة قوية ضد ضوضاء التعليق التوضيحي.
3.3 دمج الميزات متعددة الوسائط
يستفيد النموذج من وسائط متعددة متأصلة في الفيديو:
- إطارات RGB: للمعلومات المكانية والمظهرية.
- تدفق الحركة/التدفق البصري: لالتقاط الديناميكيات الزمنية والحركة.
- الصوت المحيطي/الصوت: مسار الصوت الخام، الذي قد يحتوي على إشارات تكميلية (مثل أصوات التقطيع، جريان الماء).
4. التجارب والنتائج
4.1 الإعداد التجريبي
تم إجراء التجارب على مجموعة بيانات EPIC Kitchens. تم تدريب النموذج باستخدام تعليقات الرواية الصوتية فقط (تسمية فعل-اسم + طابع زمني واحد). يتم التقييم مقابل التعليقات التوضيحية الأرضية على مستوى المثيل لقياس أداء الكشف الزمني عن الأفعال، عادةً باستخدام مقاييس مثل متوسط الدقة المتوسطة (mAP) عند عتبات تقاطع الاتحاد الزمني (tIoU) المختلفة.
4.2 النتائج والتحليل
تدعي الورقة أن النموذج المقترح يوضح أن "الرواية الصوتية المشوشة تكفي لتعلم نموذج جيد للكشف عن الأفعال". من المرجح أن تشمل النتائج الرئيسية:
- يحقق النموذج أداءً تنافسيًا مقارنة بالطرق المدربة بإشراف أكثر تكلفة، مما يقلل الفجوة بشكل كبير بين الإشراف الضعيف والكامل.
- تتعلم آلية الانتباه الزمني بنجاح تحديد موقع الأفعال على الرغم من الإشراف غير الدقيق.
- الأداء يتفوق على النماذج الأساسية التي تستخدم تسميات مستوى الفيديو فقط، مما يؤكد فائدة الإشارة الزمنية في الرواية.
4.3 دراسات الإقصاء
من المحتمل أن تظهر دراسات الإقصاء مساهمة كل وسيط (RGB، التدفق، الصوت). الوسيط الصوتي (كإشراف وكخاصية إدخال) حاسم. قد تحلل الدراسة أيضًا تأثير آلية الانتباه والقوة ضد مستوى الضوضاء في الطوابع الزمنية للرواية.
5. التحليل التقني والإطار
5.1 الفكرة الأساسية والتسلسل المنطقي
الفكرة الأساسية: الأصل الأكثر قيمة في الذكاء الاصطناعي الحديث ليس المزيد من البيانات، بل طرق أكثر ذكاءً وأرخص لتسميتها. تنجح هذه الورقة في تأكيد هذه الأطروحة من خلال التعامل مع الرواية الصوتية البشرية ليس كحقيقة أرضية مثالية، ولكن كـ أولوية انتباه عالية الإشارة ومنخفضة التكلفة. التسلسل المنطقي أنيق: 1) الاعتراف بمشكلة عنق الزجاجة في التعليق التوضيحي لفهم الفيديو ("ماذا")، 2) تحديد إشارة شائعة ولكن غير مستغلة بالكامل - الأوصاف المنطوقة المحاذاة طبيعيًا مع تدفقات الفيديو ("لماذا")، و3) هندسة بنية نموذج (MIL + الانتباه الزمني) مصممة صراحة لتكون قوية ضد الضوضاء المتأصلة في تلك الإشارة ("كيف"). إنها حالة كلاسيكية للبحث الموجه بالمشكلة، بدلاً من الموجه بالطريقة.
5.2 نقاط القوة والضعف
نقاط القوة:
- اختيار المشكلة العملي: يتناول مشكلة قابلية التوسع في العالم الحقيقي مباشرة. استخدام EPIC Kitchens، وهي مجموعة بيانات فوضوية ومعقدة ومن منظور الشخص الأول، أكثر إقناعًا بكثير من ورقة أخرى عن التعرف على الأنشطة المقطوعة.
- الاستفادة من الوسائط المتعددة: يحدد بشكل صحيح أن الحل يكمن في دمج الوسائط (المرئية، الحركة، الصوت) بدلاً من الاعتماد على تدفق واحد، متوافقًا مع الاتجاهات الموجودة في أعمال مثل CLIP من OpenAI أو MuLaN من جوجل.
- أساس للإشراف شبه الكامل: يضع هذا العمل المسرح بشكل مثالي للنماذج الهجينة. كما لوحظ في الورقة المؤثرة CycleGAN (Zhu et al., 2017)، يتم إطلاق قوة البيانات غير المزدوجة أو المزدوجة بشكل ضعيف من خلال الاتساق الدوري والتدريب الخصومي. وبالمثل، هنا، يمكن استخدام الرواية المشوشة لبدء تشغيل نموذج، مع استخدام كمية صغيرة من التعليقات التوضيحية الدقيقة للضبط الدقيق.
- "فجوة الرواية": أكبر عيب هو افتراض وجود ارتباط غير محدد كميًا بين ما يقوله الناس وما يحتاج النموذج إلى رؤيته. الرواية ذاتية، غالبًا ما تحذف أفعالًا "واضحة"، وتتأخر عن الأحداث في الوقت الفعلي. لا تحلل الورقة تأثير هذا التباين بعمق.
- قابلية توسيع النهج: هل يمكن تعميم الطريقة خارج مقاطع الفيديو الذاتية للطبخ؟ الرواية شائعة في البرامج التعليمية أو الوثائقية، لكنها غائبة في لقطات المراقبة أو الحياة البرية. الاعتماد على هذه الإشارة الضعيفة المحددة قد يحد من التطبيق الأوسع.
- عمق الجدة التقنية: مزيج MIL والانتباه للإشراف الضعيف هو أرضية مطروقة جيدًا (انظر أعمال مثل W-TALC، A2CL-PT). قد يكون الإسهام الأساسي للورقة هو تطبيق هذا النموذج على نوع جديد من الإشارات الضعيفة (الرواية الصوتية) بدلاً من اختراق معماري أساسي.
5.3 رؤى قابلة للتطبيق
للممارسين والباحثين:
- تدقيق بياناتك بحثًا عن إشراف "مجاني": قبل الشروع في مشروع تعليق توضيحي مكلف، ابحث عن إشارات ضعيفة موجودة - مسارات صوتية، ترجمات، بيانات وصفية، أوصاف نصية مجمعة من الويب. هذه الورقة هي مخطط للاستفادة منها.
- صمم للضوضاء، وليس للنقاء: عند بناء نماذج للبيانات الواقعية، ركز على الهياكل ذات القوة المتأصلة ضد الضوضاء (الانتباه، MIL، التعلم التبايني) بدلاً من تلك التي تفترض تسميات نظيفة. دالة الخسارة بنفس أهمية بنية النموذج.
- ركز على الفيديو الذاتي والتعليمي: هذه هي الثمرة المنخفضة لتطبيق هذا البحث. منصات مثل YouTube هي مستودعات شاسعة لمقاطع فيديو "كيف تفعل" المروية. بناء أدوات يمكنها تلقائيًا تقسيم ووسم هذه المقاطع بناءً على الرواية له قيمة تجارية فورية للبحث عن المحتوى وإمكانية الوصول.
- ادفع نحو نماذج الفيديو "الأساسية": الهدف النهائي يجب أن يكون نماذج كبيرة متعددة الوسائط مدربة مسبقًا على مليارات الساعات من مقاطع الفيديو المروية على الويب (على غرار كيفية تدريب LLMs على النص). يوفر هذا العمل قطعة أساسية من اللغز: كيفية استخدام مسار الصوت ليس فقط كوسيط آخر، ولكن كجسر إشرافي لتعلم تمثيلات بصرية-زمنية قوية، وهو اتجاه تتبعه بنشاط مختبرات مثل FAIR وDeepMind.
6. التطبيقات المستقبلية والاتجاهات
تتجاوز آثار هذا البحث المعايير الأكاديمية:
- تحرير الفيديو الآلي وإنشاء أبرز المشاهد: بالنسبة لمنشئي المحتوى، يمكن لنموذج يحدد موقع الأفعال من الرواية إنشاء مقاطع أو أبرز المشاهد تلقائيًا بناءً على الكلمات الرئيسية المنطوقة.
- تحسين إمكانية الوصول إلى الفيديو: إنشاء أوصاف صوتية أكثر دقيقة وموقوتة زمنيًا تلقائيًا لضعاف البصر من خلال ربط الكشف المرئي بالرواية الحالية أو المُنشأة.
- تعلم الروبوتات من الملاحظة: يمكن للروبوتات تعلم إجراءات المهام من خلال مشاهدة مقاطع فيديو توضيحية بشرية مروية (تعلم "المشاهدة والاستماع")، مما يقلل الحاجة إلى التحكم عن بعد أو المحاكاة.
- بحث الفيديو من الجيل التالي: الانتقال من البحث عن الكلمات الرئيسية في العنوان إلى "البحث عن اللحظة التي يقول فيها شخص ما 'أضف البيض' ويفعل ذلك بالفعل."
- البحث المستقبلي: تشمل الاتجاهات دمج نماذج اللغة الكبيرة (LLMs) لفهم وتحليل سياق الرواية بشكل أفضل، واستكشاف التدريب المسبق الذاتي متعدد الوسائط على الفيديو المروي قبل الضبط الدقيق بالإشراف الضعيف، وتوسيع الإطار للكشف المكاني-الزمني عن الأفعال (تحديد موقع "من يفعل ماذا وأين").
7. المراجع
- Ye, K., & Kovashka, A. (السنة). الكشف عن الأفعال باستخدام الإشراف الضعيف الموجه بالرواية الصوتية. [اسم المؤتمر/المجلة].
- Damen, D., Doughty, H., Farinella, G. M., Fidler, S., Furnari, A., Kazakos, E., ... & Wray, M. (2020). The EPIC-KITCHENS dataset: Collection, challenges and baselines. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (ICCV).
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In International Conference on Machine Learning (ICML).
- Paul, S., Roy, S., & Roy-Chowdhury, A. K. (2018). W-TALC: Weakly-supervised temporal activity localization and classification. In Proceedings of the European Conference on Computer Vision (ECCV).
- Wang, L., Xiong, Y., Lin, D., & Van Gool, L. (2017). Untrimmednets for weakly supervised action recognition and detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR).