1. Utangulizi
Video zinawakilisha chanzo tajiri cha data ya njia nyingi kwa masomo ya mashine, zikiwa na maelewano ya habari ya anga (RGB), ya kitampo (mwenendo), na ya kusikiliza. Hata hivyo, kutumia kikamilifu uwezo huu kunazuiliwa na gharama kubwa ya kupata uainishaji sahihi, wa kiwango cha mfano kwa kazi kama uchunguzi wa vitendo vya kitampo. Karatasi hii inashughulikia changamoto hii kwa kupendekeza mfumo wa kujifunza kwa usimamizi dhaifu unaotumia ufafanuzi wa sauti wa bei nafuu na unaopatikana kwa urahisi kama ishara kuu ya usimamizi. Dhana kuu ni kwamba uelekezaji wa kitampo kati ya maelezo yaliyosemwa na matukio ya kuona, ingawa hayana usahihi, yana habari ya kutosha kufundisha mfano bora wa uchunguzi wa vitendo, na hivyo kupunguza sana gharama za uainishaji.
Kazi hii imewekwa katika muktadha wa hifadhidata ya EPIC Kitchens, hifadhidata kubwa ya video ya kujiona ambapo wafafanuzi wanaelezea shughuli zao. Waandishi wanatofautisha mbinu yao na njia zilizosimamiwa kikamilifu (zinazohitaji nyakati sahihi za kuanza/kumaliza) na njia za kawaida za usimamizi dhaifu za kiwango cha video, na kuweka ufafanuzi wa sauti kama usimamizi wa "katikati" ambao ni wa bei nafuu kuliko wa kwanza na wenye habari zaidi kuliko wa pili.
2. Kazi Zinazohusiana & Taarifa ya Tatizo
2.1 Mbinu za Usimamizi katika Uchunguzi wa Vitendo
Karatasi hii inaelezea wazi viwango vitatu vya usimamizi:
- Kiwango cha Mfano: Inahitaji uainishaji wa gharama kubwa wa mara tatu (wakati wa kuanza, wakati wa kumaliza, aina ya kitendo). Inasababisha mifano nyeti ya mipaka yenye usahihi wa juu lakini haiwezi kuongezeka kwa urahisi.
- Kiwango cha Video: Inahitaji tu orodha ya aina za vitendo vilivyopo kwenye video nzima. Ni ya kawaida katika Uchunguzi wa Vitendo Kwa Usimamizi Dhaifu (WSAD) lakini hupata shida wakati video zina vitendo vingi (mfano, EPIC Kitchens ina takriban aina 35 kwa video ikilinganishwa na THUMOS' takriban 1).
- Kiwango cha Ufafanuzi wa Sauti: Hutoa maelezo mabaya, ya wakati mmoja kwa kila kitendo kilichoelezewa (tazama Mchoro 1). Hii ndiyo usimamizi "dhaifu" unaochunguzwa hapa—umeunganishwa kwa kitampo lakini hauna usahihi.
2.2 Hifadhidata ya EPIC Kitchens & Ufafanuzi wa Sauti
Hifadhidata ya EPIC Kitchens ndiyo msingi wa kazi hii. Sifa yake ya kipekee ni wimbo wa ufafanuzi wa sauti, ambapo washiriki walielezea shughuli zao. Wimbo huu umetafsiriwa na kugawanywa katika lebo za vitendo vya kitenzi-jina (mfano, "funga mlango") pamoja na wakati unaokadiriwa. Lengo la karatasi hii ni kutumia usimamizi huu wa asili, usio safi.
Ulinganisho wa Hifadhidata
| Hifadhidata | Urefu wa Wastani wa Video (sekunde) | Wastani wa Madarasa kwa Video | Wastani wa Vitendo kwa Video |
|---|---|---|---|
| THUMOS 14 | 209 | 1.08 | 15.01 |
| EPIC Kitchens | 477 | 34.87 | 89.36 |
Jedwali 1: Inaangazia utata wa EPIC Kitchens, na kufanya njia za kawaida za WSAD zisiweze kutumika kwa urahisi.
3. Njia Iliyopendekezwa
3.1 Muhtasari wa Muundo wa Mfano
Mfano uliopendekezwa umeundwa kushughulikia video zisizokatwa na kujifunza kutoka kwa usimamizi wa ufafanuzi. Kuna uwezekano mkubwa kuwa unahusisha mtandao wa mgongo wa uchimbaji wa vipengele (mfano, I3D, SlowFast) unaotumika kwenye vipande vya video. Sehemu muhimu ni utaratibu wa umakini wa kitampo unaojifunza kupima uzani wa fremu kulingana na uhusiano wao na lebo ya kitendo kilichofafanuliwa. Mfano lazima uzuie fremu zisizohusika za usuli na kuzingatia sehemu sahihi ya kitendo, licha ya kelele katika wakati wa ufafanuzi.
3.2 Kujifunza Kutoka kwa Usimamizi wa Ufafanuzi Usio Safi
Lengo la kujifunza linazunguka kutumia lebo ya ufafanuzi na wakati wake mabaya. Njia ya kawaida katika hali kama hizi ni Kujifunza kwa Mfano Mwingi (MIL), ambapo video inachukuliwa kama mfuko wa sehemu. Mfano lazima utambue ni sehemu gani zinazolingana na kitendo kilichofafanuliwa. Kazi ya hasara kwa uwezekano mkubwa inachanganya hasara ya uainishaji kwa lebo ya kitendo na hasara ya uwekaji wa kitampo ambayo inahimiza uzani wa umakini kufikia kilele karibu na wakati uliotolewa wa ufafanuzi, huku ukiruhusu mshtuko fulani wa kitampo. Changamoto kuu ya kiufundi ni kubuni hasara ambayo ni thabiti dhidi ya kelele ya uainishaji.
3.3 Uchanganyiko wa Vipengele vya Njia Nyingi
Mfano unatumia njia nyingi zilizopo kwenye video:
- Fremu za RGB: Kwa habari ya anga na muonekano.
- Mtiririko wa Mwendo/Optika: Kwa kukamata mienendo ya kitampo na harakati.
- Sauti ya Mazingira/Sauti: Wimbo wa sauti mbichi, ambao unaweza kuwa na dalili za ziada (mfano, sauti za kukata, maji yanayotiririka).
4. Majaribio & Matokeo
4.1 Usanidi wa Majaribio
Majaribio yamefanywa kwenye hifadhidata ya EPIC Kitchens. Mfano umefundishwa kwa kutumia tu uainishaji wa ufafanuzi wa sauti (lebo ya kitenzi-jina + wakati mmoja). Tathmini inafanywa dhidi ya uainishaji wa kiwango cha mfano wa ukweli wa msingi ili kupima utendaji wa uchunguzi wa vitendo vya kitampo, kwa kawaida kwa kutumia vipimo kama usahihi wa Wastani wa Wastani (mAP) kwenye viwango tofauti vya makutano-juu-ya-umiliki (tIoU).
4.2 Matokeo na Uchambuzi
Karatasi hii inadai kuwa mfano uliopendekezwa unaonyesha kuwa "ufafanuzi wa sauti usio safi unatosha kujifunza mfano mzuri wa uchunguzi wa vitendo." Matokeo muhimu kwa uwezekano mkubwa ni pamoja na:
- Mfano unafikia utendaji ushindani ikilinganishwa na njia zilizofundishwa kwa usimamizi wa gharama kubwa zaidi, na hivyo kupunguza pengo kati ya usimamizi dhaifu na usimamizi kamili.
- Utaratibu wa umakini wa kitampo unajifunza kwa mafanikio kuweka vitendo licha ya usimamizi usio sahihi.
- Utendaji ni bora zaidi kuliko misingi inayotumia lebo za kiwango cha video pekee, na hivyo kuthibitisha manufaa ya dalili ya kitampo katika ufafanuzi.
4.3 Uchunguzi wa Uondoaji
Uchunguzi wa uondoaji kwa uwezekano unaonyesha mchango wa kila njia (RGB, mtiririko, sauti). Njia ya sauti (kama usimamizi na kama kipengele cha pembejeo) ni muhimu sana. Uchunguzi unaweza pia kuchambua athari ya utaratibu wa umakini na uthabiti wa kiwango cha kelele katika nyakati za ufafanuzi.
5. Uchambuzi wa Kiufundi & Mfumo
5.1 Uelewa wa Msingi & Mtiririko wa Mantiki
Uelewa wa Msingi: Rasilimali yenye thamani zaidi katika AI ya kisasa sio data zaidi, bali njia za kisasa, za bei nafuu za kuilebuli. Karatasi hii inalenga wazo hilo kwa kuchukulia ufafanuzi wa sauti wa binadamu sio kama ukweli kamili, bali kama kipaumbele cha umakini cha ishara ya juu, cha gharama nafuu. Mtiririko wa mantiki ni mzuri: 1) Kubali kizuizi cha uainishaji katika uelewa wa video ("nini"), 2) Tambua ishara inayotumika sana lakini isiyotumiwa vyema—maelezo yaliyosemwa yanayolingana kiasili na mitiririko ya video ("kwa nini"), na 3) Unda muundo wa mfano (MIL + umakini wa kitampo) ambao umeundwa wazi kuwa thabiti dhidi ya kelele ya asili katika ishara hiyo ("jinsi gani"). Ni mfano wa kawaida wa utafiti unaoongozwa na tatizo, badala ya unaoongozwa na njia.
5.2 Nguvu & Mapungufu
Nguvu:
- Uchaguzi wa Tatizo Unaoweza Kutekelezeka: Inashughulikia moja kwa moja suala la uwezo wa kuongezeka katika ulimwengu wa kweli. Matumizi ya EPIC Kitchens, hifadhidata changamani, tata, ya kujiona, ni ya kushawishi zaidi kuliko karatasi nyingine tena juu ya utambuzi wa shughuli zilizokatwa.
- Kutumia Njia Nyingi: Inatambua kwa usahihi kwamba suluhisho liko katika kuchanganya njia (kuona, mwendo, sauti) badala ya kutegemea mtiririko mmoja, na hii inalingana na mienendo inayoonekana katika kazi kutoka kwa CLIP ya OpenAI au MuLaN ya Google.
- Msingi wa Usimamizi wa Nusu: Kazi hii inaweka msingi kamili kwa mifano mseto. Kama ilivyoonyeshwa katika karatasi ya kipekee ya CycleGAN (Zhu et al., 2017), nguvu ya data isiyo na jozi au yenye jozi dhaifu inafunguliwa na uthabiti wa mzunguko na mafunzo ya kupinga. Vile vile, hapa, ufafanuzi usio safi unaweza kutumika kuanzisha mfano, na kiasi kidogo cha uainishaji sahihi kitumike kwa urekebishaji mwishoni.
- "Pengo la Ufafanuzi": Kosa kubwa zaidi ni uhusiano unaodhaniwa, usio na kipimo kati ya kile watu wanachosema na kile mfano anachohitaji kuona. Ufafanuzi ni wa kibinafsi, mara nyingi huacha vitendo "vyo wazi", na unachelewa nyuma ya matukio ya wakati halisi. Karatasi hii haichambui kwa kina athari ya kutolingana huku.
- Uwezo wa Kuongezeka wa Njia: Je, njia hii inaweza kutumika zaidi ya video za kupikia za kujiona? Ufafanuzi ni wa kawaida katika mafunzo au makala ya kihistoria, lakini haupo katika video za usalama au wanyamapori. Kutegemea ishara hii maalum dhaifu kunaweza kupunguza matumizi mapana.
- Kina cha Uvumbuzi wa Kiufundi: Mchanganyiko wa MIL na umakini kwa usimamizi dhaifu ni eneo lililopitwa sana (tazama kazi kama W-TALC, A2CL-PT). Mchango mkuu wa karatasi hii unaweza kuwa matumizi ya hali hii kwa aina mpya ya ishara dhaifu (ufafanuzi wa sauti) badala ya uvumbuzi wa msingi wa muundo.
5.3 Uelewa Unaoweza Kutekelezwa
Kwa watekelezi na watafiti:
- Chunguza Data Yako kwa Usimamizi "Bure": Kabla ya kuanza mradi wa gharama kubwa wa uainishaji, tafuta ishara dhaifu zilizopo—nyimbo za sauti, manukuu, metadata, maelezo ya maandishi yaliyovutwa kwenye wavuti. Karatasi hii ni mwongozo wa kuzitumia.
- Buni kwa Kelele, Sio Usafi: Wakati wa kujenga mifano kwa data ya ulimwengu wa kweli, kipaumbele miundo yenye uthabiti wa asili dhidi ya kelele (umakini, MIL, kujifunza kwa kulinganisha) kuliko ile inayodhania lebo safi. Kazi ya hasara ni muhimu kama muundo wa mfano.
- Lenga Video za Kujiona & Za Mafunzo: Hii ndiyo matunda yanayopatikana kwa urahisi kwa kutumia utafiti huu. Majukwaa kama YouTube ni hifadhi kubwa ya video za mafunzo zilizofafanuliwa. Kujenga zana zinazoweza kugawa na kuweka lebo kwa video hizi kiotomatiki kulingana na ufafanuzi ina thamani ya kibiashara ya haraka kwa utafutaji wa maudhui na ufikiaji.
- Sukuma Kuelekea Mifano ya "Msingi" ya Video: Lengo la mwisho linapaswa kuwa mifano mikubwa, ya njia nyingi iliyofunzwa awali kwa masaa bilioni ya video za wavuti zilizofafanuliwa (kama vile jinsi LLMs zinavyofunzwa kwenye maandishi). Kazi hii hutoa kipande muhimu cha fumbo: jinsi ya kutumia wimbo wa sauti sio tu kama njia nyingine, bali kama daraja la usimamizi kujifunza uwakilishi wenye nguvu wa kuona-na-kitampo, mwelekeo unaofuatiliwa kikamilifu na maabara kama FAIR na DeepMind.
6. Matumizi ya Baadaye & Mwelekeo
Matokeo ya utafiti huu yanazidi viwango vya kitaaluma:
- Uhariri wa Kiotomatiki wa Video & Uundaji wa Reel ya Vipengele Muhimu: Kwa waundaji wa maudhui, mfano unaoweka vitendo kutoka kwa ufafanuzi unaweza kuunda kiotomatiki vipande au reel ya vipengele muhimu kulingana na maneno muhimu yaliyosemwa.
- Ufikiaji Ulioimarishwa wa Video: Kuunda kiotomatiki maelezo sahihi zaidi, yenye wakati wa sauti kwa wenye ulemavu wa kuona kwa kuunganisha uchunguzi wa kuona na ufafanuzi uliopo au ulioundwa.
- Kujifunza kwa Robotiki Kutokana na Uangalizi: Robotiki zinaweza kujifunza taratibu za kazi kwa kuangalia video za maonyesho ya binadamu yaliyofafanuliwa (kujifunza "angalia na sikiliza"), na hivyo kupunguza haja ya uendeshaji wa mbali au uigaji.
- Utafutaji wa Video wa Kizazi Kijacho: Kuhamia kutoka kwa utafutaji wa neno muhimu kwenye kichwa hadi "tafuta wakati ambapo mtu anasema 'ongeza mayai' na kwa kweli anafanya hivyo."
- Utafiti wa Baadaye: Mwelekeo ni pamoja na kuunganisha Mifano ya Lugha Kubwa (LLMs) ili kuchambua na kuelewa vyema muktadha wa ufafanuzi, kuchunguza usimamizi wa awali wa kujitegemea wa njia nyingi kwenye video iliyofafanuliwa kabla ya urekebishaji mwishoni wa usimamizi dhaifu, na kupanua mfumo huu kwa uchunguzi wa kitendo cha anga-na-kitampo (kuweka "nani anafanya nini wapi").
7. Marejeo
- Ye, K., & Kovashka, A. (Mwaka). Uchunguzi wa Vitendo Kwa Usimamizi Dhaifu Unaongozwa na Ufafanuzi wa Sauti. [Jina la Mkutano/Jarida].
- Damen, D., Doughty, H., Farinella, G. M., Fidler, S., Furnari, A., Kazakos, E., ... & Wray, M. (2020). Hifadhidata ya EPIC-KITCHENS: Ukusanyaji, changamoto na misingi. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI).
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Tafsiri ya picha hadi picha isiyo na jozi kwa kutumia mitandao ya kupinga yenye uthabiti wa mzunguko. Katika Matokeo ya mkutano wa kimataifa wa IEEE wa taa za kompyuta (ICCV).
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Kujifunza mifano ya kuona inayoweza kuhamishwa kutoka kwa usimamizi wa lugha asilia. Katika Mkutano wa Kimataifa wa Kujifunza kwa Mashine (ICML).
- Paul, S., Roy, S., & Roy-Chowdhury, A. K. (2018). W-TALC: Uwekaji wa kitampo na uainishaji wa shughuli kwa usimamizi dhaifu. Katika Matokeo ya Mkutano wa Ulaya wa Taa za Kompyuta (ECCV).
- Wang, L., Xiong, Y., Lin, D., & Van Gool, L. (2017). Untrimmednets kwa utambuzi na uchunguzi dhaifu wa vitendo. Katika Matokeo ya mkutano wa IEEE wa utambuzi wa muundo na muundo wa kompyuta (CVPR).