1. Pengenalan
Video mewakili sumber data multimodal yang kaya untuk pembelajaran mesin, merangkumi maklumat spatial (visual), temporal, dan seringkali auditori. Walau bagaimanapun, memanfaatkan sepenuhnya potensi ini dihalang oleh kos yang tinggi untuk mendapatkan anotasi peringkat contoh yang tepat (masa mula, masa tamat, label tindakan) untuk pengesanan tindakan dalam video yang tidak dipotong. Kertas kerja ini menangani halangan ini dengan mencadangkan pendekatan penyeliaan lemah yang baharu yang menggunakan naratif audio yang murah dan mudah diperoleh sebagai isyarat penyeliaan utama. Inti patinyaialah naratif, walaupun tidak tepat secara temporal (hanya memberikan masa mula kasar seperti dalam set data EPIC Kitchens), mengandungi petunjuk semantik yang berharga yang boleh membimbing model untuk memberi perhatian kepada segmen video yang relevan dan mempelajari pengesan tindakan yang berkesan, dengan ketara mengurangkan kebergantungan pada anotasi.
2. Kerja Berkaitan & Penyataan Masalah
2.1 Paradigma Penyeliaan dalam Pengesanan Tindakan
Bidang pengesanan tindakan temporal beroperasi di bawah tiga paradigma penyeliaan utama:
- Penyeliaan Penuh: Memerlukan anotasi peringkat contoh yang mahal (sempadan temporal yang tepat). Menghasilkan prestasi tinggi tetapi tidak boleh ditingkatkan.
- Penyeliaan Lemah (Peringkat Video): Hanya menggunakan label kelas peringkat video. Menganggap sedikit tindakan setiap video (cth., THUMOS14 mempunyai ~1 kelas/video), yang tidak realistik untuk video yang panjang dan kompleks seperti dalam EPIC Kitchens (purata ~35 kelas/video).
- Penyeliaan Lemah (Naratif): Paradigma yang dicadangkan. Menggunakan transkrip naratif audio dengan cap masa tunggal yang bising sebagai label lemah. Ini lebih bermaklumat daripada label peringkat video tetapi lebih murah daripada anotasi contoh penuh.
Perbandingan Set Data
THUMOS14: Purata 1.08 kelas/video. EPIC Kitchens: Purata 34.87 kelas/video. Kontras ketara ini menonjolkan batasan kaedah WSAD tradisional dalam senario dunia sebenar.
2.2 Cabaran Penyeliaan Lemah
Cabaran utamaialah ketidakselarasan temporal antara cap masa naratif dan contoh tindakan sebenar. Model mesti belajar untuk menyekat bingkai latar belakang yang tidak relevan dan memberi tumpuan kepada segmen temporal yang betul yang berkaitan dengan tindakan yang dinaratifkan, walaupun labelnya bising.
3. Kaedah yang Dicadangkan
3.1 Gambaran Keseluruhan Seni Bina Model
Model yang dicadangkanialah seni bina multimodal yang direka untuk memproses dan menggabungkan ciri daripada bingkai RGB, aliran optik (pergerakan), dan trek audio ambien. Komponen terasialah mekanisme perhatian temporal yang belajar untuk memberi pemberat kepentingan bingkai video yang berbeza berdasarkan perkaitannya dengan label naratif audio yang diberikan.
3.2 Pembelajaran daripada Naratif yang Bising
Daripada menganggap cap masa naratif sebagai label keras, model menganggapnya sebagai petunjuk lemah. Objektif pembelajaran menggalakkan skor pengaktifan tinggi untuk bingkai yang hampir secara temporal dengan titik naratif untuk kelas tindakan yang betul, sambil meminimumkan pengaktifan untuk semua bingkai dan kelas lain. Ini serupa dengan bentuk pembelajaran berbilang contoh (MIL) di mana videoialah "beg" bingkai, dan "contoh" positif (tindakan) berada di suatu tempat berhampiran titik yang dinaratifkan.
3.3 Gabungan Ciri Multimodal
Ciri daripada modaliti yang berbeza (RGB untuk penampilan, aliran untuk pergerakan, audio untuk bunyi ambien) diekstrak menggunakan rangkaian yang telah dilatih sebelumnya (cth., I3D untuk RGB/Aliran, VGGish untuk audio). Ciri-ciri ini kemudian digabungkan, sama ada melalui penyatuan awal atau melalui modul perhatian silang-modal yang lebih canggih, untuk membentuk perwakilan bersama yang teguh untuk pengelasan dan penyetempatan tindakan.
4. Eksperimen & Keputusan
4.1 Set Data dan Persediaan
Penilaian utama dijalankan pada set data EPIC Kitchens 100, set data video egosentrik berskala besar dengan anotasi tindakan padat dan naratif audio yang sepadan. Model dilatih hanya menggunakan masa mula naratif dan label kata kerja-kata nama yang ditranskripsikan. Prestasi diukur menggunakan metrik pengesanan tindakan temporal piawai seperti Purata Ketepatan Min (mAP) pada ambang Persilangan-Atas-Penyatuan (tIoU) temporal yang berbeza.
4.2 Keputusan Kuantitatif
Kertas kerja ini menunjukkan bahawa model yang dicadangkan, dilatih semata-mata dengan penyeliaan naratif, mencapai prestasi yang kompetitif berbanding model yang dilatih dengan penyeliaan yang lebih mahal. Walaupun secara semula jadi ketinggalan berbanding garis dasar penyeliaan penuh, ia jauh mengatasi kaedah penyeliaan lemah peringkat video, terutamanya pada set data dengan banyak tindakan setiap video. Ini mengesahkan hipotesis bahawa naratif menyediakan isyarat penyeliaan "tengah" yang berharga.
4.3 Kajian Penyingkiran
Kajian penyingkiran mengesahkan kepentingan setiap komponen:
- Multimodaliti: Menggunakan ciri RGB+Aliran+Audio secara konsisten mengatasi mana-mana modaliti tunggal.
- Perhatian Temporal: Mekanisme perhatian yang dicadangkan adalah penting untuk menapis bingkai yang tidak relevan dan meningkatkan ketepatan penyetempatan.
- Naratif vs. Peringkat Video: Latihan dengan label naratif menghasilkan keputusan pengesanan yang lebih baik daripada hanya menggunakan label peringkat video pada EPIC Kitchens, membuktikan kandungan maklumat yang lebih unggul bagi yang pertama.
5. Analisis Teknikal & Kerangka Kerja
5.1 Rumusan Matematik
Objektif pembelajaran teras boleh dirangka sebagai gabungan kehilangan pengelasan dan kehilangan penyetempatan temporal yang dipandu oleh isyarat naratif lemah. Biarkan $V = \{f_t\}_{t=1}^T$ menjadi jujukan ciri bingkai video. Untuk label naratif $y_n$ dengan cap masa $\tau_n$, model menghasilkan skor kelas peringkat bingkai $s_t^c$. Pemberat perhatian temporal $\alpha_t$ dipelajari untuk setiap bingkai. Kehilangan pengelasan untuk tindakan yang dinaratifkanialah jumlah berwajaran: $$\mathcal{L}_{cls} = -\log\left(\frac{\exp(\sum_t \alpha_t s_t^{y_n})}{\sum_c \exp(\sum_t \alpha_t s_t^c)}\right)$$ Serentak, kehilangan pelicinan atau kelangkaan temporal $\mathcal{L}_{temp}$ digunakan pada $\alpha_t$ untuk menggalakkan taburan puncak di sekitar contoh tindakan. Jumlah kehilanganialah $\mathcal{L} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{temp}$.
5.2 Contoh Kerangka Analisis
Kajian Kes: Menganalisis Mod Kegagalan Model
Untuk memahami batasan model, kita boleh membina kerangka analisis:
- Pemeriksaan Data: Kenal pasti video di mana ramalan model (segmen temporal) mempunyai IoU rendah dengan kebenaran asas. Semak semula video ini dan naratifnya secara manual.
- Pengkategorian: Kategorikan kegagalan. Kategori biasa termasuk:
- Kekaburan Naratif: Naratif (cth., "Saya sedang menyediakan makanan") terlalu tinggi dan tidak selaras dengan satu contoh tindakan pendek.
- Tindakan Kompaun: Tindakan yang dinaratifkan (cth., "ambil pisau dan potong sayur") terdiri daripada pelbagai sub-tindakan, mengelirukan model.
- Dominasi Latar Belakang: Latar belakang visual untuk tindakan terlalu sesak atau serupa dengan bingkai bukan tindakan yang lain.
- Punca Akar & Mitigasi: Untuk "Kekaburan Naratif," penyelesaiannya mungkin melibatkan penggunaan model bahasa yang lebih canggih untuk menghuraikan kehalusan naratif atau menggabungkan isyarat pembelajaran yang mengenakan penalti untuk pengesanan yang terlalu panjang untuk label yang kabur.
6. Perbincangan & Hala Tuju Masa Depan
Inti Pati: Kerja iniialah pengubahsuaian pragmatik di sekitar halangan anotasi data. Ia betul-betul mengenal pasti bahawa dalam dunia sebenar, isyarat penyeliaan "percuma" seperti naratif audio, kapsyen tertutup, atau transkrip ASR adalah banyak. Sumbangan sebenar bukan seni bina neural yang baharu, tetapi bukti konsep yang meyakinkan bahawa kita boleh—dan patut—mereka bentuk sistem pembelajaran untuk mencerna isyarat dunia sebenar yang bising ini daripada menunggu data yang disusun dengan sempurna.
Aliran Logik: Hujahnya kukuh: anotasi peringkat contoh tidak mampan untuk skala → label peringkat video terlalu lemah untuk video kompleks → naratif audioialah jalan tengah yang murah dan bermaklumat → inilah model yang boleh menggunakannya. Penggunaan EPIC Kitchens, dengan taburan tindakan padatnya,ialah langkah bijak untuk menonjolkan kelemahan penyeliaan peringkat video.
Kekuatan & Kelemahan: Kekuatannyaialah kepraktisannya dan proposisi nilai yang jelas untuk aplikasi industri (cth., penyederhanaan kandungan, carian video, kehidupan berbantu) di mana kos penting. Kelemahannya, seperti banyak kaedah penyeliaan lemah,ialah siling prestasi. Model pada asasnya dihadkan oleh bunyi bising dalam penyeliaannya. Iaialah langkah pertama yang baik, tetapi bukan penyelesaian akhir untuk aplikasi berisiko tinggi yang memerlukan masa yang tepat.
Wawasan Boleh Tindak: Untuk penyelidik: Terokai penyeliaan diri silang-modal (cth., memanfaatkan kerja daripada Prapelatihan Bahasa-Imej Kontrastif (CLIP) oleh Radford et al.) untuk lebih mengurangkan kebergantungan pada sebarang label teks. Untuk pengamal: Segera gunakan paradigma ini pada set data video dalaman dengan transkrip atau log audio yang tersedia. Mulakan dengan menganggap cap masa dalam log sebagai titik naratif lemah.
Hala Tuju Masa Depan:
- Memanfaatkan Model Visi-Bahasa Besar (VLM): Model seperti CLIP atau BLIP-2 menyediakan perwakilan visual-teks yang selaras dan berkuasa. Kerja masa depan boleh menggunakan ini sebagai prior yang kuat untuk lebih membumikan frasa naratif dalam kandungan video, berpotensi mengatasi beberapa isu kekaburan.
- Generalisasi Silang Set Data: Bolehkah model yang dilatih pada video dapur egosentrik yang dinaratifkan (EPIC) mengesan tindakan dalam video sukan orang ketiga dengan audio pengulas? Meneroka kebolehpindahan pembelajaran berpandukan naratif adalah kunci.
- Daripada Pengesanan kepada Jangkaan: Naratif sering menggambarkan tindakan semasa ia berlaku atau sejurus selepasnya. Bolehkah isyarat ini digunakan untuk mempelajari model jangkaan tindakan, meramalkan tindakan sedikit sebelum ia berlaku?
- Integrasi dengan Pembelajaran Aktif: Ketidakpastian model atau pemberat perhatian boleh digunakan untuk meminta penjelasan daripada penganotasi manusia hanya pada pasangan naratif-video yang paling mengelirukan, mencipta sistem anotasi manusia-dalam-gelung yang sangat cekap.
7. Rujukan
- Ye, K., & Kovashka, A. (2021). Weakly-Supervised Action Detection Guided by Audio Narration. In Proceedings of the ... (PDF Source).
- Damen, D., et al. (2018). Scaling Egocentric Vision: The EPIC-KITCHENS Dataset. European Conference on Computer Vision (ECCV).
- Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. International Conference on Machine Learning (ICML).
- Carreira, J., & Zisserman, A. (2017). Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. Conference on Computer Vision and Pattern Recognition (CVPR).
- Wang, L., et al. (2016). Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. European Conference on Computer Vision (ECCV).
- Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. International Conference on Computer Vision (ICCV).