اختر اللغة

الكشف عن الأفعال باستخدام الإشراف الضعيف الموجه بالتعليق الصوتي

ورقة بحثية تستكشف كيفية استخدام التعليق الصوتي المشوش كإشراف ضعيف لتدريب نماذج الكشف عن الأفعال في الفيديو، مما يقلل تكاليف التعليق التوضيحي مع الاستفادة من الميزات متعددة الوسائط.
audio-novel.com | PDF Size: 0.9 MB
التقييم: 4.5/5
تقييمك
لقد قيمت هذا المستند مسبقاً
غلاف مستند PDF - الكشف عن الأفعال باستخدام الإشراف الضعيف الموجه بالتعليق الصوتي

1. المقدمة

تمثل مقاطع الفيديو مصدرًا غنيًا و متعدد الوسائط للبيانات في التعلم الآلي، حيث تشمل معلومات مكانية (بصرية)، وزمنية، وغالبًا سمعية. ومع ذلك، فإن الاستفادة الكاملة من هذا الإمكانات تعوقها التكلفة الباهظة للحصول على تعليقات توضيحية دقيقة على مستوى المثيل (وقت البدء، وقت الانتهاء، تسمية الفعل) للكشف عن الأفعال في مقاطع الفيديو غير المقطوعة. تتناول هذه الورقة البحثية عنق الزجاجة هذا من خلال اقتراح نهج جديد للإشراف الضعيف يستخدم التعليق الصوتي غير المكلف والمتاح بسهولة كإشارة إشرافية أساسية. الفكرة الأساسية هي أن التعليقات، على الرغم من عدم دقتها زمنيًا (حيث توفر فقط وقت بدء تقريبي كما في مجموعة بيانات EPIC Kitchens)، تحتوي على إشارات دلالية قيمة يمكنها توجيه النموذج للتركيز على مقاطع الفيديو ذات الصلة وتعلم كاشفات أفعال فعالة، مما يقلل بشكل كبير من الاعتماد على التعليق التوضيحي.

2. الأعمال ذات الصلة وبيان المشكلة

2.1 نماذج الإشراف في الكشف عن الأفعال

يعمل مجال الكشف الزمني عن الأفعال تحت ثلاثة نماذج إشراف أساسية:

  • الإشراف الكامل: يتطلب تعليقات توضيحية مكلفة على مستوى المثيل (حدود زمنية دقيقة). يؤدي إلى أداء عالٍ ولكنه غير قابل للتوسع.
  • الإشراف الضعيف (على مستوى الفيديو): يستخدم فقط تسميات الفئات على مستوى الفيديو. يفترض وجود عدد قليل من الأفعال لكل فيديو (مثلًا، THUMOS14 لديها ~1 فئة/فيديو)، وهو أمر غير واقعي لمقاطع الفيديو الطويلة والمعقدة مثل تلك الموجودة في EPIC Kitchens (بمتوسط ~35 فئة/فيديو).
  • الإشراف الضعيف (التعليق): النموذج المقترح. يستخدم نصوص التعليق الصوتي المشوشة ذات الطابع الزمني الفردي كتسميات ضعيفة. هذا أكثر إفادة من التسميات على مستوى الفيديو ولكنه أرخص من التعليق التوضيحي الكامل للمثيل.

مقارنة مجموعات البيانات

THUMOS14: متوسط 1.08 فئة/فيديو. EPIC Kitchens: متوسط 34.87 فئة/فيديو. هذا التباين الصارخ يسلط الضوء على قيود طرق WSAD التقليدية في السيناريوهات الواقعية.

2.2 تحدي الإشراف الضعيف

التحدي المركزي هو عدم المحاذاة الزمنية بين الطابع الزمني للتعليق ومثيل الفعل الفعلي. يجب على النموذج أن يتعلم كبح الإطارات الخلفية غير ذات الصلة والتركيز على المقطع الزمني الصحيح المرتبط بالفعل المعلق عليه، على الرغم من التسمية المشوشة.

3. الطريقة المقترحة

3.1 نظرة عامة على بنية النموذج

النموذج المقترح هو بنية متعددة الوسائط مصممة لمعالجة ودمج الميزات من إطارات RGB، وتدفق البصري (الحركة)، والمقاطع الصوتية المحيطة. أحد المكونات الأساسية هو آلية الانتباه الزمني التي تتعلم وزن أهمية إطارات الفيديو المختلفة بناءً على علاقتها بتسمية التعليق الصوتي المقدمة.

3.2 التعلم من التعليق المشوش

بدلاً من التعامل مع الطابع الزمني للتعليق كتسمية صلبة، يعامله النموذج كإشارة ضعيفة. يشجع هدف التعلم على تحقيق درجات تنشيط عالية للإطارات القريبة زمنيًا من نقطة التعليق لفئة الفعل الصحيحة، مع تقليل التنشيط لجميع الإطارات والفئات الأخرى إلى الحد الأدنى. هذا يشبه شكلًا من التعلم متعدد المثيل (MIL) حيث يكون الفيديو "حقيبة" من الإطارات، و"المثيل" الإيجابي (الفعل) موجود في مكان ما بالقرب من النقطة المعلقة عليها.

3.3 دمج الميزات متعددة الوسائط

يتم استخراج الميزات من الوسائط المختلفة (RGB للمظهر، التدفق للحركة، الصوت للصوت المحيط) باستخدام شبكات مدربة مسبقًا (مثل I3D لـ RGB/التدفق، VGGish للصوت). ثم يتم دمج هذه الميزات، إما من خلال التسلسل المبكر أو عبر وحدة انتباه متعددة الوسائط أكثر تطوراً، لتشكيل تمثيل مشترك قوي لتصنيف الفعل وتحديد موقعه.

4. التجارب والنتائج

4.1 مجموعة البيانات والإعداد

يتم إجراء التقييم الأساسي على مجموعة بيانات EPIC Kitchens 100، وهي مجموعة بيانات فيديو واسعة النطاق من منظور الأنا تحتوي على تعليقات توضيحية كثيفة للأفعال وتعليقات صوتية مقابلة. يتم تدريب النموذج باستخدام أوقات بدء التعليق فقط وتسميات الفعل-الاسم المنقولة. يتم قياس الأداء باستخدام مقاييس الكشف الزمني عن الأفعال القياسية مثل متوسط الدقة المتوسطة (mAP) عند عتبات تقاطع الاتحاد الزمني (tIoU) المختلفة.

4.2 النتائج الكمية

تظهر الورقة البحثية أن النموذج المقترح، الذي تم تدريبه فقط بإشراف التعليق، يحقق أداءً تنافسيًا مقارنة بالنماذج المدربة بإشراف أكثر تكلفة. بينما يتخلف بطبيعة الحال عن النماذج الأساسية ذات الإشراف الكامل، فإنه يتفوق بشكل كبير على طرق الإشراف الضعيف على مستوى الفيديو، خاصةً على مجموعات البيانات التي تحتوي على العديد من الأفعال لكل فيديو. وهذا يؤكد الفرضية القائلة بأن التعليق يوفر إشارة إشرافية "وسطية" قيمة.

4.3 دراسات الإزالة

تؤكد دراسات الإزالة أهمية كل مكون:

  • تعدد الوسائط: يؤدي استخدام ميزات RGB+التدفق+الصوت باستمرار إلى تفوق أي وسيط واحد.
  • الانتباه الزمني: آلية الانتباه المقترحة ضرورية لتصفية الإطارات غير ذات الصلة وتحسين دقة تحديد الموقع.
  • التعليق مقابل مستوى الفيديو: يؤدي التدريب باستخدام تسميات التعليق إلى نتائج كشف أفضل من استخدام تسميات مستوى الفيديو فقط على EPIC Kitchens، مما يثبت المحتوى المعلوماتي المتفوق للأول.

5. التحليل التقني والإطار

5.1 الصياغة الرياضية

يمكن صياغة هدف التعلم الأساسي كمجموعة من خسارة التصنيف وخسارة تحديد الموقع الزمني الموجهة بإشارة التعليق الضعيفة. لنفترض أن $V = \{f_t\}_{t=1}^T$ هي سلسلة من ميزات إطارات الفيديو. بالنسبة لتسمية التعليق $y_n$ مع الطابع الزمني $\tau_n$، ينتج النموذج درجات فئة على مستوى الإطار $s_t^c$. يتم تعلم وزن انتباه زمني $\alpha_t$ لكل إطار. خسارة التصنيف للفعل المعلق عليه هي مجموع مرجح: $$\mathcal{L}_{cls} = -\log\left(\frac{\exp(\sum_t \alpha_t s_t^{y_n})}{\sum_c \exp(\sum_t \alpha_t s_t^c)}\right)$$ في الوقت نفسه، يتم تطبيق خسارة تجانس زمني أو خسارة تفرق $\mathcal{L}_{temp}$ على $\alpha_t$ لتشجيع توزيع ذروي حول مثيل الفعل. الخسارة الإجمالية هي $\mathcal{L} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{temp}$.

5.2 مثال على إطار التحليل

دراسة حالة: تحليل أنماط فشل النموذج
لفهم قيود النموذج، يمكننا بناء إطار تحليل:

  1. فحص البيانات: تحديد مقاطع الفيديو التي يكون فيها تنبؤ النموذج (المقطع الزمني) ذو تقاطع اتحاد (IoU) منخفض مع الحقيقة الأساسية. مراجعة هذه الفيديوهات وتعليقاتها يدويًا.
  2. التصنيف: تصنيف حالات الفشل. تشمل الفئات الشائعة:
    • غموض التعليق: التعليق (مثل "أقوم بإعداد الطعام") عالي المستوى جدًا ولا يتوافق مع مثيل فعل واحد قصير.
    • الأفعال المركبة: الفعل المعلق عليه (مثل "أخذ السكين وتقطيع الخضار") يتكون من أفعال فرعية متعددة، مما يربك النموذج.
    • هيمنة الخلفية: الخلفية البصرية للفعل مزدحمة جدًا أو مشابهة لإطارات أخرى غير فعلية.
  3. السبب الجذري والتخفيف: بالنسبة لـ"غموض التعليق"، قد يتضمن الحل استخدام نموذج لغوي أكثر تطوراً لتحليل دقة التعليق أو دمج إشارة تعلم تعاقب عمليات الكشف الطويلة جدًا للتسميات الغامضة.
هذا التحليل المنظم يتجاوز مجرد الإبلاغ عن المقاييس البسيطة إلى تشخيصات نموذج قابلة للتنفيذ.

6. المناقشة والاتجاهات المستقبلية

الفكرة الأساسية: هذا العمل هو حل عملي للتغلب على عنق الزجاجة الخاص بتعليق البيانات التوضيحي. إنه يحدد بشكل صحيح أنه في العالم الحقيقي، تكون الإشارات الإشرافية "المجانية" مثل التعليقات الصوتية، أو التسميات التوضيحية المغلقة، أو نصوص التعرف التلقائي على الكلام وفيرة. المساهمة الحقيقية ليست في بنية عصبية جديدة، ولكنها دليل عملي مقنع على أنه يمكننا - ويجب علينا - تصميم أنظمة تعلم لهضم هذه الإشارات المشوشة من العالم الحقيقي بدلاً من انتظار البيانات المنسقة بشكل مثالي.

التدفق المنطقي: الحجة قوية: التعليق التوضيحي على مستوى المثيل غير مستدام للتوسع → تسميات مستوى الفيديو ضعيفة جدًا لمقاطع الفيديو المعقدة → التعليق الصوتي هو أرضية وسطية رخيصة وغنية بالمعلومات → هذا نموذج يمكنه استخدامه. استخدام EPIC Kitchens، مع توزيع أفعالها الكثيف، هو خطوة عبقرية لتسليط الضوء على عيب الإشراف على مستوى الفيديو.

نقاط القوة والضعف: تكمن قوته في عمليته وقيمته المقترحة الواضحة للتطبيقات الصناعية (مثل مراجعة المحتوى، البحث في الفيديو، المساعدة في المعيشة) حيث تكون التكلفة مهمة. العيب، كما هو الحال مع العديد من طرق الإشراف الضعيف، هو سقف الأداء. النموذج محدود أساسًا بالضوضاء في إشرافه. إنها خطوة أولى رائعة، ولكنها ليست حلاً نهائيًا للتطبيقات عالية المخاطر التي تتطلب توقيتًا دقيقًا.

رؤى قابلة للتنفيذ: للباحثين: استكشف الإشراف الذاتي متعدد الوسائط (مثل الاستفادة من العمل من التدريب المسبق التبايني للغة والصورة (CLIP) بواسطة Radford وآخرون) لتقليل الاعتماد على أي تسميات نصية بشكل أكبر. للممارسين: قم بتطبيق هذا النموذج فورًا على مجموعات بيانات الفيديو الداخلية المتاحة مع نصوص أو سجلات صوتية. ابدأ بمعاملة الطوابع الزمنية في السجلات كنقاط تعليق ضعيفة.

الاتجاهات المستقبلية:

  • الاستفادة من نماذج الرؤية واللغة الكبيرة (VLMs): توفر نماذج مثل CLIP أو BLIP-2 تمثيلات بصرية-نصية قوية ومحاذاة. يمكن للعمل المستقبلي استخدام هذه كمعطيات أولية قوية لتأسيس العبارات المعلقة عليها في محتوى الفيديو بشكل أفضل، مما قد يتغلب على بعض مشكلات الغموض.
  • التعميم عبر مجموعات البيانات: هل يمكن لنموذج مدرب على فيديوهات المطبخ من منظور الأنا المعلقة عليها (EPIC) اكتشاف الأفعال في فيديوهات الرياضة من منظور الغير مع تعليق صوتي للمعلق؟ استكشاف قابلية نقل التعلم الموجه بالتعليق هو أمر أساسي.
  • من الكشف إلى التوقع: غالبًا ما يصف التعليق الفعل أثناء حدوثه أو بعده مباشرة. هل يمكن استخدام هذه الإشارة لتعلم نماذج توقع الفعل، والتنبؤ بالفعل قبل حدوثه بقليل؟
  • التكامل مع التعلم النشط: يمكن استخدام عدم اليقين في النموذج أو أوزان الانتباه للاستفسار من معلق بشري للتوضيح فقط على أزواج التعليق-الفيديو الأكثر إرباكًا، مما يخلق نظام تعليق توضيحي فعال للغاية مع تدخل بشري.

7. المراجع

  1. Ye, K., & Kovashka, A. (2021). Weakly-Supervised Action Detection Guided by Audio Narration. In Proceedings of the ... (PDF Source).
  2. Damen, D., et al. (2018). Scaling Egocentric Vision: The EPIC-KITCHENS Dataset. European Conference on Computer Vision (ECCV).
  3. Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. International Conference on Machine Learning (ICML).
  4. Carreira, J., & Zisserman, A. (2017). Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. Conference on Computer Vision and Pattern Recognition (CVPR).
  5. Wang, L., et al. (2016). Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. European Conference on Computer Vision (ECCV).
  6. Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. International Conference on Computer Vision (ICCV).