1. परिचय
वीडियो मशीन लर्निंग के लिए एक समृद्ध, बहु-मोडल डेटा स्रोत का प्रतिनिधित्व करते हैं, जिसमें स्थानिक (दृश्य), कालिक और अक्सर श्रवण जानकारी शामिल होती है। हालाँकि, इस क्षमता का पूरा लाभ उठाना, अकाटित वीडियो में क्रिया पहचान के लिए सटीक, उदाहरण-स्तरीय एनोटेशन (प्रारंभ समय, समाप्ति समय, क्रिया लेबल) प्राप्त करने की अत्यधिक लागत से बाधित होता है। यह पत्र इस बाधा को एक नवीन दुर्बल-पर्यवेक्षित दृष्टिकोण प्रस्तावित करके संबोधित करता है जो सस्ते और आसानी से उपलब्ध ऑडियो वर्णन को प्राथमिक पर्यवेक्षण संकेत के रूप में उपयोग करता है। मूल अंतर्दृष्टि यह है कि वर्णन, हालांकि कालिक रूप से अशुद्ध होते हैं (जैसे EPIC Kitchens डेटासेट में केवल एक मोटा प्रारंभ समय प्रदान करते हैं), मूल्यवान अर्थगत संकेत रखते हैं जो एक मॉडल को प्रासंगिक वीडियो खंडों पर ध्यान केंद्रित करने और प्रभावी क्रिया डिटेक्टर सीखने के लिए मार्गदर्शन कर सकते हैं, जिससे एनोटेशन निर्भरता काफी कम हो जाती है।
2. संबंधित कार्य एवं समस्या कथन
2.1 क्रिया पहचान में पर्यवेक्षण प्रतिमान
कालिक क्रिया पहचान का क्षेत्र तीन प्राथमिक पर्यवेक्षण प्रतिमानों के तहत कार्य करता है:
- पूर्ण-पर्यवेक्षित: महंगे उदाहरण-स्तरीय एनोटेशन (सटीक कालिक सीमाएँ) की आवश्यकता होती है। उच्च प्रदर्शन की ओर ले जाता है लेकिन मापनीय नहीं है।
- दुर्बल-पर्यवेक्षित (वीडियो-स्तरीय): केवल वीडियो-स्तरीय वर्ग लेबल का उपयोग करता है। प्रति वीडियो कुछ क्रियाओं का अनुमान लगाता है (जैसे, THUMOS14 में ~1 वर्ग/वीडियो), जो EPIC Kitchens जैसे लंबे, जटिल वीडियो (औसत ~35 वर्ग/वीडियो) के लिए अवास्तविक है।
- दुर्बल-पर्यवेक्षित (वर्णन): प्रस्तावित प्रतिमान। शोरगुल, एकल-टाइमस्टैम्प ऑडियो वर्णन प्रतिलेखों को दुर्बल लेबल के रूप में उपयोग करता है। यह वीडियो-स्तरीय लेबलों की तुलना में अधिक सूचनात्मक है लेकिन पूर्ण उदाहरण एनोटेशन से सस्ता है।
डेटासेट तुलना
THUMOS14: औसत 1.08 वर्ग/वीडियो। EPIC Kitchens: औसत 34.87 वर्ग/वीडियो। यह स्पष्ट विरोधाभास वास्तविक दुनिया के परिदृश्यों में पारंपरिक WSAD विधियों की सीमा को उजागर करता है।
2.2 दुर्बल पर्यवेक्षण की चुनौती
मुख्य चुनौती वर्णन टाइमस्टैम्प और वास्तविक क्रिया उदाहरण के बीच का कालिक असंरेखण है। मॉडल को अप्रासंगिक पृष्ठभूमि फ्रेमों को दबाना और शोरगुल लेबल के बावजूद, वर्णित क्रिया से जुड़े सही कालिक खंड पर ध्यान केंद्रित करना सीखना चाहिए।
3. प्रस्तावित विधि
3.1 मॉडल आर्किटेक्चर अवलोकन
प्रस्तावित मॉडल एक बहु-मोडल आर्किटेक्चर है जिसे RGB फ्रेम, ऑप्टिकल फ्लो (गति), और परिवेशी ऑडियो ट्रैक से सुविधाओं को संसाधित और संलयित करने के लिए डिज़ाइन किया गया है। एक मुख्य घटक एक कालिक ध्यान तंत्र है जो प्रदान किए गए ऑडियो वर्णन लेबल के साथ उनकी प्रासंगिकता के आधार पर विभिन्न वीडियो फ्रेमों के महत्व को भारित करना सीखता है।
3.2 शोरगुल वर्णन से सीखना
वर्णन टाइमस्टैम्प को एक कठोर लेबल के रूप में मानने के बजाय, मॉडल इसे एक दुर्बल संकेत के रूप में मानता है। सीखने का उद्देश्य सही क्रिया वर्ग के लिए वर्णन बिंदु के कालिक रूप से निकट फ्रेमों के लिए उच्च सक्रियता स्कोर को प्रोत्साहित करता है, जबकि अन्य सभी फ्रेमों और वर्गों के लिए सक्रियताओं को न्यूनतम करता है। यह एकाधिक उदाहरण सीखने (MIL) के एक रूप के समान है जहाँ वीडियो फ्रेमों का एक "बैग" है, और सकारात्मक "उदाहरण" (क्रिया) वर्णित बिंदु के आसपास कहीं है।
3.3 बहु-मोडल सुविधा संलयन
विभिन्न मोडलिटीज़ (दिखावट के लिए RGB, गति के लिए फ्लो, परिवेशी ध्वनि के लिए ऑडियो) से सुविधाएँ पूर्व-प्रशिक्षित नेटवर्क (जैसे, RGB/Flow के लिए I3D, ऑडियो के लिए VGGish) का उपयोग करके निकाली जाती हैं। इन सुविधाओं को तब, या तो प्रारंभिक संयोजन के माध्यम से या एक अधिक परिष्कृत क्रॉस-मोडल ध्यान मॉड्यूल के माध्यम से, संलयित किया जाता है, ताकि क्रिया वर्गीकरण और स्थानीयकरण के लिए एक मजबूत संयुक्त प्रतिनिधित्व बनाया जा सके।
4. प्रयोग एवं परिणाम
4.1 डेटासेट और सेटअप
प्राथमिक मूल्यांकन EPIC Kitchens 100 डेटासेट पर किया जाता है, जो एक बड़े पैमाने का अहंकारी वीडियो डेटासेट है जिसमें सघन क्रिया एनोटेशन और संबंधित ऑडियो वर्णन हैं। मॉडल को केवल वर्णन प्रारंभ समय और प्रतिलेखित क्रिया-संज्ञा लेबल का उपयोग करके प्रशिक्षित किया जाता है। प्रदर्शन को विभिन्न कालिक इंटरसेक्शन-ओवर-यूनियन (tIoU) सीमाओं पर माध्य औसत परिशुद्धता (mAP) जैसे मानक कालिक क्रिया पहचान मेट्रिक्स का उपयोग करके मापा जाता है।
4.2 मात्रात्मक परिणाम
पत्र प्रदर्शित करता है कि प्रस्तावित मॉडल, जिसे केवल वर्णन पर्यवेक्षण के साथ प्रशिक्षित किया गया है, अधिक महंगे पर्यवेक्षण के साथ प्रशिक्षित मॉडलों की तुलना में प्रतिस्पर्धी प्रदर्शन प्राप्त करता है। हालांकि यह स्वाभाविक रूप से पूर्ण-पर्यवेक्षित आधार रेखाओं से पीछे रह जाता है, यह वीडियो-स्तरीय दुर्बल-पर्यवेक्षित विधियों, विशेष रूप से प्रति वीडियो कई क्रियाओं वाले डेटासेट पर, काफी बेहतर प्रदर्शन करता है। यह इस परिकल्पना को मान्य करता है कि वर्णन एक मूल्यवान "मध्यम-मैदान" पर्यवेक्षण संकेत प्रदान करता है।
4.3 निष्कासन अध्ययन
निष्कासन अध्ययन प्रत्येक घटक के महत्व की पुष्टि करते हैं:
- बहु-मोडलिटी: RGB+Flow+Audio सुविधाओं का उपयोग किसी भी एकल मोडलिटी से लगातार बेहतर प्रदर्शन करता है।
- कालिक ध्यान: प्रस्तावित ध्यान तंत्र अप्रासंगिक फ्रेमों को छानने और स्थानीयकरण सटीकता में सुधार करने के लिए महत्वपूर्ण है।
- वर्णन बनाम वीडियो-स्तरीय: वर्णन लेबल के साथ प्रशिक्षण EPIC Kitchens पर केवल वीडियो-स्तरीय लेबल का उपयोग करने की तुलना में बेहतर पहचान परिणाम देता है, जो पूर्व की श्रेष्ठ सूचना सामग्री को सिद्ध करता है।
5. तकनीकी विश्लेषण एवं रूपरेखा
5.1 गणितीय सूत्रीकरण
मूल सीखने के उद्देश्य को एक वर्गीकरण हानि और दुर्बल वर्णन संकेत द्वारा निर्देशित एक कालिक स्थानीयकरण हानि के संयोजन के रूप में तैयार किया जा सकता है। मान लीजिए $V = \{f_t\}_{t=1}^T$ वीडियो फ्रेम सुविधाओं का एक क्रम है। टाइमस्टैम्प $\tau_n$ के साथ एक वर्णन लेबल $y_n$ के लिए, मॉडल फ्रेम-स्तरीय वर्ग स्कोर $s_t^c$ उत्पन्न करता है। प्रत्येक फ्रेम के लिए एक कालिक ध्यान भार $\alpha_t$ सीखा जाता है। वर्णित क्रिया के लिए वर्गीकरण हानि एक भारित योग है: $$\mathcal{L}_{cls} = -\log\left(\frac{\exp(\sum_t \alpha_t s_t^{y_n})}{\sum_c \exp(\sum_t \alpha_t s_t^c)}\right)$$ साथ ही, क्रिया उदाहरण के आसपास एक नुकीले वितरण को प्रोत्साहित करने के लिए $\alpha_t$ पर एक कालिक चिकनाई या विरलता हानि $\mathcal{L}_{temp}$ लागू की जाती है। कुल हानि $\mathcal{L} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{temp}$ है।
5.2 विश्लेषण रूपरेखा उदाहरण
केस स्टडी: मॉडल की विफलता के तरीकों का विश्लेषण
मॉडल की सीमाओं को समझने के लिए, हम एक विश्लेषण रूपरेखा का निर्माण कर सकते हैं:
- डेटा निरीक्षण: उन वीडियो की पहचान करें जहाँ मॉडल की भविष्यवाणी (कालिक खंड) का ग्राउंड ट्रुथ के साथ कम IoU है। इन वीडियो और उनके वर्णनों की मैन्युअल समीक्षा करें।
- वर्गीकरण: विफलताओं को वर्गीकृत करें। सामान्य श्रेणियों में शामिल हैं:
- वर्णन अस्पष्टता: वर्णन (जैसे, "मैं खाना तैयार कर रहा हूँ") बहुत उच्च-स्तरीय है और एकल, छोटी क्रिया उदाहरण के साथ संरेखित नहीं होता।
- यौगिक क्रियाएँ: वर्णित क्रिया (जैसे, "चाकू लो और सब्जी काटो") में कई उप-क्रियाएँ शामिल हैं, जो मॉडल को भ्रमित करती हैं।
- पृष्ठभूमि प्रभुत्व: क्रिया के लिए दृश्य पृष्ठभूमि बहुत अव्यवस्थित है या अन्य गैर-क्रिया फ्रेमों के समान है।
- मूल कारण एवं न्यूनीकरण: "वर्णन अस्पष्टता" के लिए, समाधान में वर्णन सूक्ष्मता को पार्स करने के लिए एक अधिक परिष्कृत भाषा मॉडल का उपयोग करना या अस्पष्ट लेबलों के लिए अत्यधिक लंबी पहचान को दंडित करने वाला एक सीखने का संकेत शामिल करना शामिल हो सकता है।
6. चर्चा एवं भविष्य की दिशाएँ
मूल अंतर्दृष्टि: यह कार्य डेटा एनोटेशन बाधा के आसपास एक व्यावहारिक हैक है। यह सही ढंग से पहचानता है कि वास्तविक दुनिया में, ऑडियो वर्णन, क्लोज्ड कैप्शन, या ASR प्रतिलेख जैसे "मुफ्त" पर्यवेक्षण संकेत प्रचुर मात्रा में हैं। वास्तविक योगदान एक नवीन तंत्रिका आर्किटेक्चर नहीं है, बल्कि एक सम्मोहक प्रूफ-ऑफ-कॉन्सेप्ट है कि हम इन शोरगुल, वास्तविक-विश्व संकेतों को पचाने के लिए सीखने की प्रणालियों को डिजाइन कर सकते हैं—और करना चाहिए—बजाय पूरी तरह से संकलित डेटा की प्रतीक्षा करने के।
तार्किक प्रवाह: तर्क ठोस है: उदाहरण-स्तरीय एनोटेशन पैमाने के लिए अस्थिर है → वीडियो-स्तरीय लेबल जटिल वीडियो के लिए बहुत दुर्बल हैं → ऑडियो वर्णन एक सस्ता, सूचनात्मक मध्यम मैदान है → यहाँ एक मॉडल है जो इसका उपयोग कर सकता है। EPIC Kitchens का उपयोग, इसके सघन क्रिया वितरण के साथ, वीडियो-स्तरीय पर्यवेक्षण दोष को उजागर करने के लिए एक उत्कृष्ट कदम है।
शक्तियाँ एवं दोष: इसकी शक्ति इसकी व्यावहारिकता और उद्योग अनुप्रयोगों (जैसे, सामग्री मॉडरेशन, वीडियो खोज, सहायक जीवन) के लिए स्पष्ट मूल्य प्रस्ताव है जहाँ लागत मायने रखती है। दोष, कई दुर्बल-पर्यवेक्षित विधियों की तरह, प्रदर्शन की सीमा है। मॉडल मौलिक रूप से अपने पर्यवेक्षण में शोर द्वारा सीमित है। यह एक बेहतरीन पहला कदम है, लेकिन सटीक समय की आवश्यकता वाले उच्च-दांव अनुप्रयोगों के लिए अंतिम समाधान नहीं है।
क्रियाशील अंतर्दृष्टियाँ: शोधकर्ताओं के लिए: किसी भी पाठ्य लेबल पर निर्भरता को और कम करने के लिए क्रॉस-मोडल स्व-पर्यवेक्षण (जैसे, रैडफोर्ड एट अल. द्वारा कंट्रास्टिव लैंग्वेज-इमेज प्री-ट्रेनिंग (CLIP) से कार्य का लाभ उठाना) का अन्वेषण करें। व्यवसायियों के लिए: उपलब्ध प्रतिलेख या ऑडियो लॉग वाले आंतरिक वीडियो डेटासेट पर इस प्रतिमान को तुरंत लागू करें। लॉग में टाइमस्टैम्प को दुर्बल वर्णन बिंदुओं के रूप में मानकर शुरू करें।
भविष्य की दिशाएँ:
- बड़े विज़न-लैंग्वेज मॉडल (VLMs) का लाभ उठाना: CLIP या BLIP-2 जैसे मॉडल शक्तिशाली संरेखित दृश्य-पाठ प्रतिनिधित्व प्रदान करते हैं। भविष्य का कार्य वीडियो सामग्री में वर्णित वाक्यांशों को बेहतर ढंग से आधारित करने के लिए इन्हे मजबूत पूर्वानुमान के रूप में उपयोग कर सकता है, संभावित रूप से कुछ अस्पष्टता मुद्दों पर काबू पा सकता है।
- क्रॉस-डेटासेट सामान्यीकरण: क्या वर्णित अहंकारी रसोई वीडियो (EPIC) पर प्रशिक्षित एक मॉडल कमेंटेटर ऑडियो वाले तृतीय-पक्ष खेल वीडियो में क्रियाओं का पता लगा सकता है? वर्णन-निर्देशित सीखने की हस्तांतरणीयता का अन्वेषण करना महत्वपूर्ण है।
- पहचान से पूर्वानुमान तक: वर्णन अक्सर एक क्रिया का वर्णन करता है जब वह हो रही होती है या ठीक बाद। क्या इस संकेत का उपयोग क्रिया पूर्वानुमान मॉडल सीखने के लिए किया जा सकता है, एक क्रिया का उसके घटित होने से थोड़ा पहले अनुमान लगाने के लिए?
- सक्रिय सीखने के साथ एकीकरण: मॉडल की अनिश्चितता या ध्यान भार का उपयोग केवल सबसे भ्रमित करने वाले वर्णन-वीडियो जोड़े पर स्पष्टीकरण के लिए एक मानव एनोटेटर से पूछताछ करने के लिए किया जा सकता है, जिससे एक अत्यधिक कुशल मानव-इन-द-लूप एनोटेशन प्रणाली बनाई जा सके।
7. संदर्भ
- Ye, K., & Kovashka, A. (2021). Weakly-Supervised Action Detection Guided by Audio Narration. In Proceedings of the ... (PDF Source).
- Damen, D., et al. (2018). Scaling Egocentric Vision: The EPIC-KITCHENS Dataset. European Conference on Computer Vision (ECCV).
- Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. International Conference on Machine Learning (ICML).
- Carreira, J., & Zisserman, A. (2017). Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. Conference on Computer Vision and Pattern Recognition (CVPR).
- Wang, L., et al. (2016). Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. European Conference on Computer Vision (ECCV).
- Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. International Conference on Computer Vision (ICCV).