1. ভূমিকা
ভিডিও মেশিন লার্নিংয়ের জন্য একটি সমৃদ্ধ, বহুমুখী ডেটা উৎসের প্রতিনিধিত্ব করে, যাতে সমন্বিত স্থানিক (আরজিবি), কালিক (গতি) এবং শ্রবণ সংক্রান্ত তথ্য থাকে। তবে, সময়গত কর্ম সনাক্তকরণের মতো কাজের জন্য সুনির্দিষ্ট, উদাহরণ-স্তরের টীকা পাওয়ার অত্যন্ত উচ্চ খরচের কারণে এই সম্ভাবনার পূর্ণ ব্যবহার বাধাগ্রস্ত হয়। এই গবেষণাপত্রটি এই চ্যালেঞ্জ মোকাবিলা করে একটি দুর্বল-তত্ত্বাবধানে শেখার কাঠামো প্রস্তাব করে যা প্রাথমিক তত্ত্বাবধায়ক সংকেত হিসেবে সস্তা ও সহজলভ্য অডিও বর্ণনা ব্যবহার করে। মূল অনুমান হল, কথিত বর্ণনা এবং দৃশ্যমান ঘটনার মধ্যকার সময়গত সমন্বয়, যদিও অশুদ্ধ ও অস্পষ্ট, একটি কার্যকর কর্ম সনাক্তকরণ মডেল প্রশিক্ষণের জন্য পর্যাপ্ত তথ্য ধারণ করে, যা টীকাকরণের খরচ নাটকীয়ভাবে হ্রাস করে।
এই কাজটি EPIC Kitchens ডেটাসেটের প্রেক্ষাপটে উপস্থাপিত হয়েছে, যা একটি বৃহৎ আকারের আত্মকেন্দ্রিক ভিডিও ডেটাসেট যেখানে বর্ণনাকারীরা তাদের কার্যক্রম বর্ণনা করেন। লেখকরা তাদের পদ্ধতিকে সম্পূর্ণ-তত্ত্বাবধানে পদ্ধতি (সুনির্দিষ্ট শুরু/শেষ সময়ের প্রয়োজন) এবং ঐতিহ্যগত দুর্বল-তত্ত্বাবধানে ভিডিও-স্তরের পদ্ধতি থেকে পৃথক করেছেন, অডিও বর্ণনাকে একটি "মধ্যমপন্থী" তত্ত্বাবধান হিসেবে স্থাপন করেছেন যা প্রথমটির চেয়ে সস্তা এবং দ্বিতীয়টির চেয়ে বেশি তথ্যপূর্ণ।
2. সম্পর্কিত কাজ ও সমস্যা বিবৃতি
2.1 কর্ম সনাক্তকরণে তত্ত্বাবধানের প্যারাডাইম
গবেষণাপত্রটি তত্ত্বাবধানের তিনটি স্তর স্পষ্টভাবে চিহ্নিত করেছে:
- উদাহরণ-স্তর: ব্যয়বহুল ট্রিপলেট টীকা (শুরু সময়, শেষ সময়, কর্ম শ্রেণী) প্রয়োজন। উচ্চ নির্ভুলতা সহ সীমানা-সংবেদনশীল মডেল তৈরি করে কিন্তু স্কেলযোগ্য নয়।
- ভিডিও-স্তর: শুধুমাত্র পুরো ভিডিওতে উপস্থিত কর্ম শ্রেণীর একটি তালিকা প্রয়োজন। দুর্বল-তত্ত্বাবধানে কর্ম সনাক্তকরণে (WSAD) সাধারণ, কিন্তু যখন ভিডিওতে অনেক কর্ম থাকে তখন সমস্যায় পড়ে (যেমন, EPIC Kitchens-এ প্রতি ভিডিওতে ~35টি শ্রেণী বনাম THUMOS-এ ~1টি)।
- অডিও বর্ণনা-স্তর: বর্ণিত প্রতিটি কর্মের জন্য একটি মোটামুটি, একক টাইমস্ট্যাম্প প্রদান করে (চিত্র ১ দেখুন)। এটিই এখানে অনুসন্ধান করা "দুর্বল" তত্ত্বাবধান—এটি সময়গতভাবে সমন্বিত কিন্তু অস্পষ্ট।
2.2 EPIC Kitchens ডেটাসেট ও অডিও বর্ণনা
EPIC Kitchens ডেটাসেট এই কাজের কেন্দ্রে অবস্থিত। এর অনন্য বৈশিষ্ট্য হল অডিও বর্ণনা ট্র্যাক, যেখানে অংশগ্রহণকারীরা তাদের কার্যক্রম বর্ণনা করেছেন। এই ট্র্যাকটি প্রতিলিপি করা হয়েছে এবং ক্রিয়া-বিশেষ্য কর্ম লেবেল (যেমন, "দরজা বন্ধ করা") সহ একটি সংশ্লিষ্ট, আনুমানিক টাইমস্ট্যাম্পে বিশ্লেষণ করা হয়েছে। গবেষণাপত্রের লক্ষ্য হল এই স্বাভাবিকভাবে ঘটে যাওয়া, অশুদ্ধ তত্ত্বাবধানকে কাজে লাগানো।
ডেটাসেট তুলনা
| ডেটাসেট | গড় ভিডিও দৈর্ঘ্য (সেকেন্ড) | প্রতি ভিডিওতে গড় শ্রেণী | প্রতি ভিডিওতে গড় কর্ম |
|---|---|---|---|
| THUMOS 14 | 209 | 1.08 | 15.01 |
| EPIC Kitchens | 477 | 34.87 | 89.36 |
সারণী ১: EPIC Kitchens-এর জটিলতা তুলে ধরে, যা ঐতিহ্যগত WSAD পদ্ধতিগুলোর প্রযোজ্যতা হ্রাস করে।
3. প্রস্তাবিত পদ্ধতি
3.1 মডেল আর্কিটেকচার সংক্ষিপ্ত বিবরণ
প্রস্তাবিত মডেলটি অট্রিমড ভিডিও প্রক্রিয়া করা এবং বর্ণনা তত্ত্বাবধান থেকে শেখার জন্য ডিজাইন করা হয়েছে। এতে সম্ভবত বৈশিষ্ট্য নিষ্কাশনের জন্য একটি ব্যাকবোন নেটওয়ার্ক (যেমন, I3D, SlowFast) জড়িত থাকে যা ভিডিও স্নিপেটে প্রয়োগ করা হয়। একটি মূল উপাদান হল একটি সময়গত মনোযোগ প্রক্রিয়া যা বর্ণিত কর্ম লেবেলের সাথে তাদের প্রাসঙ্গিকতার ভিত্তিতে ফ্রেমগুলোর ওজন নির্ধারণ করতে শেখে। বর্ণনা টাইমস্ট্যাম্পে শব্দ থাকা সত্ত্বেও, মডেলটিকে অপ্রাসঙ্গিক ব্যাকগ্রাউন্ড ফ্রেম দমন করতে এবং সঠিক কর্ম সেগমেন্টে মনোযোগ দিতে হবে।
3.2 অশুদ্ধ বর্ণনা তত্ত্বাবধান থেকে শেখা
শেখার উদ্দেশ্য বর্ণনা লেবেল এবং এর মোটামুটি টাইমস্ট্যাম্প ব্যবহার করার চারপাশে আবর্তিত হয়। এই ধরনের সেটিংসে একটি সাধারণ পদ্ধতি হল মাল্টিপল ইনস্ট্যান্স লার্নিং (MIL), যেখানে ভিডিওকে সেগমেন্টের একটি ব্যাগ হিসেবে বিবেচনা করা হয়। মডেলটিকে চিহ্নিত করতে হবে কোন সেগমেন্ট(গুলি) বর্ণিত কর্মের সাথে মিলে যায়। লস ফাংশনটি সম্ভবত কর্ম লেবেলের জন্য একটি শ্রেণীবিভাগ লস এবং একটি সময়গত লোকালাইজেশন লসকে একত্রিত করে যা প্রদত্ত বর্ণনা টাইমস্ট্যাম্পের আশেপাশে মনোযোগের ওজন শীর্ষে উঠতে উৎসাহিত করে, কিছু সময়গত জিটার অনুমোদন করার পাশাপাশি। মূল প্রযুক্তিগত চ্যালেঞ্জ হল টীকাকরণের শব্দের প্রতি প্রতিরোধী এমন একটি লস ডিজাইন করা।
3.3 বহুমুখী বৈশিষ্ট্য সংমিশ্রণ
মডেলটি ভিডিওতে অন্তর্নিহিত একাধিক মোডালিটি কাজে লাগায়:
- আরজিবি ফ্রেম: স্থানিক ও চেহারার তথ্যের জন্য।
- গতি প্রবাহ/অপটিক্যাল ফ্লো: সময়গত গতিবিদ্যা ও চলাচল ধারণ করার জন্য।
- পরিবেষ্টিত শব্দ/অডিও: কাঁচা অডিও ট্র্যাক, যাতে পরিপূরক সংকেত থাকতে পারে (যেমন, কাটার শব্দ, কলের জল)।
4. পরীক্ষা ও ফলাফল
4.1 পরীক্ষামূলক সেটআপ
পরীক্ষাগুলো EPIC Kitchens ডেটাসেটে পরিচালিত হয়েছে। মডেলটি শুধুমাত্র অডিও বর্ণনা টীকা (ক্রিয়া-বিশেষ্য লেবেল + একক টাইমস্ট্যাম্প) ব্যবহার করে প্রশিক্ষিত হয়েছে। সময়গত কর্ম সনাক্তকরণ কর্মক্ষমতা পরিমাপের জন্য মূল সত্য উদাহরণ-স্তরের টীকার বিপরীতে মূল্যায়ন করা হয়েছে, সাধারণত বিভিন্ন সময়গত ইন্টারসেকশন-ওভার-ইউনিয়ন (tIoU) থ্রেশহোল্ডে গড় গড় নির্ভুলতা (mAP) এর মতো মেট্রিক ব্যবহার করে।
4.2 ফলাফল ও বিশ্লেষণ
গবেষণাপত্রটি দাবি করে যে প্রস্তাবিত মডেলটি প্রমাণ করে যে "অশুদ্ধ অডিও বর্ণনা একটি ভালো কর্ম সনাক্তকরণ মডেল শেখার জন্য যথেষ্ট।" মূল ফলাফলগুলোর মধ্যে সম্ভবত অন্তর্ভুক্ত:
- মডেলটি আরও ব্যয়বহুল তত্ত্বাবধানে প্রশিক্ষিত পদ্ধতির তুলনায় প্রতিযোগিতামূলক কর্মক্ষমতা অর্জন করে, দুর্বল ও পূর্ণ তত্ত্বাবধানের মধ্যে ব্যবধান উল্লেখযোগ্যভাবে কমিয়ে আনে।
- সময়গত মনোযোগ প্রক্রিয়া অস্পষ্ট তত্ত্বাবধান সত্ত্বেও কর্মগুলো লোকালাইজ করতে সফলভাবে শেখে।
- কর্মক্ষমতা শুধুমাত্র ভিডিও-স্তরের লেবেল ব্যবহার করে এমন বেসলাইন থেকে উচ্চতর, যা বর্ণনায় সময়গত সংকেতের উপযোগিতা যাচাই করে।
4.3 বিচ্ছিন্নতা গবেষণা
বিচ্ছিন্নতা গবেষণা সম্ভবত প্রতিটি মোডালিটির (আরজিবি, ফ্লো, অডিও) অবদান দেখায়। অডিও মোডালিটি (তত্ত্বাবধান এবং ইনপুট বৈশিষ্ট্য উভয় হিসেবেই) অত্যন্ত গুরুত্বপূর্ণ। গবেষণাটি বর্ণনা টাইমস্ট্যাম্পে শব্দের মাত্রার প্রতি মনোযোগ প্রক্রিয়ার প্রভাব এবং প্রতিরোধ ক্ষমতাও বিশ্লেষণ করতে পারে।
5. প্রযুক্তিগত বিশ্লেষণ ও কাঠামো
5.1 মূল অন্তর্দৃষ্টি ও যৌক্তিক প্রবাহ
মূল অন্তর্দৃষ্টি: আধুনিক AI-তে সবচেয়ে মূল্যবান সম্পদ আরও বেশি ডেটা নয়, বরং এটি লেবেল করার আরও স্মার্ট, সস্তা উপায়। এই গবেষণাপত্রটি মানুষের অডিও বর্ণনাকে নিখুঁত মূল সত্য হিসেবে নয়, বরং একটি উচ্চ-সংকেত, কম-খরচের মনোযোগ প্রায়োর হিসেবে বিবেচনা করে সেই থিসিসটি সঠিকভাবে উপস্থাপন করে। যৌক্তিক প্রবাহটি মার্জিত: ১) ভিডিও বোঝার টীকাকরণ বাধা স্বীকার করা ("কী"), ২) একটি সর্বব্যাপী কিন্তু অপর্যাপ্তভাবে ব্যবহৃত সংকেত চিহ্নিত করা—ভিডিও স্ট্রিমের সাথে স্বাভাবিকভাবে সমন্বিত কথিত বর্ণনা ("কেন"), এবং ৩) একটি মডেল আর্কিটেকচার (MIL + সময়গত মনোযোগ) ডিজাইন করা যা স্পষ্টভাবে সেই সংকেতের অন্তর্নিহিত শব্দের প্রতি প্রতিরোধী হওয়ার জন্য তৈরি ("কিভাবে")। এটি সমস্যা-চালিত, পদ্ধতি-চালিত নয়, গবেষণার একটি ক্লাসিক উদাহরণ।
5.2 শক্তি ও দুর্বলতা
শক্তি:
- বাস্তববাদী সমস্যা নির্বাচন: বাস্তব-বিশ্বের স্কেলযোগ্যতা সমস্যা সরাসরি মোকাবিলা করে। EPIC Kitchens ব্যবহার, একটি এলোমেলো, জটিল, আত্মকেন্দ্রিক ডেটাসেট, ট্রিমড অ্যাক্টিভিটি রিকগনিশনের উপর আরেকটি গবেষণাপত্রের চেয়ে অনেক বেশি বিশ্বাসযোগ্য।
- বহুমুখী সুবিধা গ্রহণ: সঠিকভাবে চিহ্নিত করে যে সমাধানটি একটি একক স্ট্রিমের উপর নির্ভর করার পরিবর্তে মোডালিটি (দৃশ্যমান, গতি, অডিও) সংমিশ্রণের মধ্যে নিহিত, যা OpenAI-এর CLIP বা Google-এর MuLaN-এর কাজে দেখা প্রবণতার সাথে সামঞ্জস্যপূর্ণ।
- আধা-তত্ত্বাবধানের ভিত্তি: এই কাজটি হাইব্রিড মডেলের জন্য মঞ্চটি পুরোপুরি প্রস্তুত করে। প্রভাবশালী CycleGAN গবেষণাপত্রে (Zhu et al., 2017) উল্লিখিত হয়েছে, সাইকেল-কনসিসটেন্সি এবং অ্যাডভারসারিয়াল ট্রেনিং দ্বারা জোড়াবিহীন বা দুর্বলভাবে জোড়া ডেটার শক্তি উন্মুক্ত হয়। একইভাবে, এখানে, অশুদ্ধ বর্ণনা একটি মডেল বুটস্ট্র্যাপ করতে ব্যবহার করা যেতে পারে, সূক্ষ্ম-টিউনিংয়ের জন্য অল্প পরিমাণে সুনির্দিষ্ট টীকা ব্যবহার করে।
- "বর্ণনা ব্যবধান": সবচেয়ে বড় দুর্বলতা হল মানুষ কী বলে এবং মডেলটির কী দেখার প্রয়োজন তার মধ্যে একটি অনুমিত, অপরিমাপিত সম্পর্ক। বর্ণনা বিষয়ভিত্তিক, প্রায়ই "স্পষ্ট" কর্ম বাদ দেয়, এবং রিয়েল-টাইম ঘটনার পিছনে পিছনে চলে। গবেষণাপত্রটি এই অসামঞ্জস্যের প্রভাব গভীরভাবে বিশ্লেষণ করে না।
- পদ্ধতির স্কেলযোগ্যতা: আত্মকেন্দ্রিক রান্নার ভিডিওর বাইরে পদ্ধতিটি সাধারণীকরণযোগ্য কি? বর্ণনা টিউটোরিয়াল বা ডকুমেন্টারিতে সাধারণ, কিন্তু নজরদারি বা বন্যপ্রাণীর ফুটেজে অনুপস্থিত। এই নির্দিষ্ট দুর্বল সংকেতের উপর নির্ভরতা বিস্তৃত প্রয়োগ সীমিত করতে পারে।
- প্রযুক্তিগত নতুনত্বের গভীরতা: দুর্বল তত্ত্বাবধানের জন্য MIL এবং মনোযোগের সংমিশ্রণ সুপরিচিত ক্ষেত্র (W-TALC, A2CL-PT-এর মতো কাজ দেখুন)। গবেষণাপত্রের প্রাথমিক অবদান একটি নতুন ধরনের দুর্বল সংকেত (অডিও বর্ণনা) এর জন্য এই প্যারাডাইমের প্রয়োগ হতে পারে, একটি মৌলিক আর্কিটেকচারাল অগ্রগতি নয়।
5.3 বাস্তবায়নযোগ্য অন্তর্দৃষ্টি
অনুশীলনকারী ও গবেষকদের জন্য:
- আপনার ডেটার "ফ্রি" তত্ত্বাবধান নিরীক্ষা করুন: একটি ব্যয়বহুল টীকাকরণ প্রকল্প শুরু করার আগে, বিদ্যমান দুর্বল সংকেতের সন্ধান করুন—অডিও ট্র্যাক, সাবটাইটেল, মেটাডেটা, ওয়েব-ক্রল করা টেক্সট বর্ণনা। এটি সেগুলো কাজে লাগানোর জন্য একটি নীলনকশা।
- পবিত্রতার জন্য নয়, শব্দের জন্য ডিজাইন করুন: বাস্তব-বিশ্বের ডেটার জন্য মডেল তৈরি করার সময়, পরিষ্কার লেবেল ধরে নেয় এমনগুলোর চেয়ে অন্তর্নিহিত শব্দ প্রতিরোধ ক্ষমতা (মনোযোগ, MIL, কনট্রাস্টিভ লার্নিং) সহ আর্কিটেকচারকে অগ্রাধিকার দিন। লস ফাংশনটি মডেল আর্কিটেকচারের মতোই গুরুত্বপূর্ণ।
- আত্মকেন্দ্রিক ও নির্দেশনামূলক ভিডিওতে ফোকাস করুন: এই গবেষণা প্রয়োগের জন্য এটি সহজলভ্য ফল। YouTube-এর মতো প্ল্যাটফর্মগুলি বর্ণিত হাউ-টু ভিডিওর বিশাল সংগ্রহস্থল। বর্ণনার ভিত্তিতে এই ভিডিওগুলি স্বয়ংক্রিয়ভাবে সেগমেন্ট এবং ট্যাগ করতে পারে এমন টুল তৈরি করা কন্টেন্ট অনুসন্ধান এবং অ্যাক্সেসিবিলিটির জন্য তাৎক্ষণিক বাণিজ্যিক মূল্য রাখে।
- "ফাউন্ডেশন" ভিডিও মডেলের দিকে ধাক্কা দিন: চূড়ান্ত লক্ষ্য হওয়া উচিত বড়, বহুমুখী মডেল যা বিলিয়ন ঘন্টার বর্ণিত ওয়েব ভিডিওতে প্রাক-প্রশিক্ষিত (যেমনটি কিভাবে LLM-গুলি টেক্সটে প্রশিক্ষিত হয়)। এই কাজটি পাজলের একটি মূল অংশ সরবরাহ করে: কিভাবে অডিও ট্র্যাককে শুধুমাত্র আরেকটি মোডালিটি হিসাবে নয়, বরং শক্তিশালী ভিজ্যুয়াল-টেম্পোরাল উপস্থাপনা শেখার জন্য একটি তত্ত্বাবধায়ক সেতু হিসাবে ব্যবহার করতে হয়, FAIR এবং DeepMind-এর মতো ল্যাবগুলি দ্বারা সক্রিয়ভাবে অনুসৃত একটি দিক।
6. ভবিষ্যতের প্রয়োগ ও দিকনির্দেশনা
এই গবেষণার প্রভাব একাডেমিক বেঞ্চমার্কের বাইরে প্রসারিত:
- স্বয়ংক্রিয় ভিডিও সম্পাদনা ও হাইলাইট রিল জেনারেশন: কন্টেন্ট ক্রিয়েটরদের জন্য, বর্ণনা থেকে কর্ম লোকালাইজ করে এমন একটি মডেল কথিত কীওয়ার্ডের ভিত্তিতে স্বয়ংক্রিয়ভাবে ক্লিপ বা হাইলাইট রিল তৈরি করতে পারে।
- উন্নত ভিডিও অ্যাক্সেসিবিলিটি: বিদ্যমান বা উত্পন্ন বর্ণনার সাথে ভিজ্যুয়াল সনাক্তকরণ সংযুক্ত করে দৃষ্টিপ্রতিবন্ধীদের জন্য আরও সুনির্দিষ্ট, সময়-স্ট্যাম্পযুক্ত অডিও বর্ণনা স্বয়ংক্রিয়ভাবে তৈরি করা।
- পর্যবেক্ষণ থেকে রোবোটিক্স শেখা: রোবটগুলি বর্ণিত মানুষের প্রদর্শন ভিডিও দেখে কাজের পদ্ধতি শিখতে পারে ("দেখুন এবং শুনুন" শেখা), টেলিওপারেশন বা সিমুলেশনের প্রয়োজনীয়তা হ্রাস করে।
- পরবর্তী প্রজন্মের ভিডিও অনুসন্ধান: শিরোনামে কীওয়ার্ড অনুসন্ধান থেকে "সেই মুহূর্তটি অনুসন্ধান করুন যখন কেউ 'ডিম যোগ করুন' বলে এবং প্রকৃতপক্ষে তা করে" তে স্থানান্তর।
- ভবিষ্যতের গবেষণা: দিকনির্দেশনাগুলির মধ্যে রয়েছে বর্ণনার প্রসঙ্গ আরও ভালভাবে বিশ্লেষণ এবং বোঝার জন্য বৃহৎ ভাষা মডেল (LLM) সংহত করা, দুর্বল-তত্ত্বাবধানে সূক্ষ্ম-টিউনিংয়ের আগে বর্ণিত ভিডিওতে ক্রস-মোডাল স্ব-তত্ত্বাবধানে প্রাক-প্রশিক্ষণ অন্বেষণ করা এবং কাঠামোটি স্থানিক-কালিক কর্ম সনাক্তকরণে ("কে কোথায় কী করছে" লোকালাইজ করা) প্রসারিত করা।
7. তথ্যসূত্র
- Ye, K., & Kovashka, A. (বছর). Weakly-Supervised Action Detection Guided by Audio Narration. [কনফারেন্স/জার্নাল নাম].
- Damen, D., Doughty, H., Farinella, G. M., Fidler, S., Furnari, A., Kazakos, E., ... & Wray, M. (2020). The EPIC-KITCHENS dataset: Collection, challenges and baselines. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (ICCV).
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In International Conference on Machine Learning (ICML).
- Paul, S., Roy, S., & Roy-Chowdhury, A. K. (2018). W-TALC: Weakly-supervised temporal activity localization and classification. In Proceedings of the European Conference on Computer Vision (ECCV).
- Wang, L., Xiong, Y., Lin, D., & Van Gool, L. (2017). Untrimmednets for weakly supervised action recognition and detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR).