1. Giriş
Videolar, makine öğrenimi için uzamsal (görsel), zamansal ve genellikle işitsel bilgiyi kapsayan zengin, çok modlu bir veri kaynağıdır. Ancak, bu potansiyelden tam olarak yararlanmak, kesilmemiş videolarda eylem tespiti için kesin, örnek düzeyinde açıklamaların (başlangıç zamanı, bitiş zamanı, eylem etiketi) elde edilmesinin yüksek maliyeti nedeniyle engellenmektedir. Bu makale, ucuz ve kolayca erişilebilir sesli anlatımı birincil denetim sinyali olarak kullanan yeni bir zayıf denetimli yaklaşım önererek bu darboğazı ele almaktadır. Temel içgörü, anlatımların zamansal olarak kesin olmamasına rağmen (EPIC Kitchens veri setinde olduğu gibi yalnızca kabaca bir başlangıç zamanı sağlar), bir modelin ilgili video bölümlerine odaklanmasına ve etkili eylem dedektörleri öğrenmesine rehberlik edebilecek değerli anlamsal ipuçları içermesidir; bu da açıklama bağımlılığını önemli ölçüde azaltır.
2. İlgili Çalışmalar & Problem Tanımı
2.1 Eylem Tespitinde Denetim Paradigmaları
Zamansal eylem tespiti alanı üç ana denetim paradigması altında çalışır:
- Tam Denetimli: Pahalı örnek düzeyinde açıklamalar (kesin zamansal sınırlar) gerektirir. Yüksek performansa yol açar ancak ölçeklenebilir değildir.
- Zayıf Denetimli (Video Düzeyinde): Yalnızca video düzeyinde sınıf etiketleri kullanır. Video başına az sayıda eylem olduğunu varsayar (örneğin, THUMOS14'te ~1 sınıf/video), bu da EPIC Kitchens'taki gibi uzun, karmaşık videolar için gerçekçi değildir (ortalama ~35 sınıf/video).
- Zayıf Denetimli (Anlatım): Önerilen paradigma. Gürültülü, tek zaman damgalı sesli anlatım transkriptlerini zayıf etiketler olarak kullanır. Bu, video düzeyindeki etiketlerden daha bilgilendiricidir ancak tam örnek açıklamasından daha ucuzdur.
Veri Seti Karşılaştırması
THUMOS14: Ort. 1.08 sınıf/video. EPIC Kitchens: Ort. 34.87 sınıf/video. Bu belirgin karşıtlık, geleneksel ZDEY yöntemlerinin gerçek dünya senaryolarındaki sınırlamasını vurgulamaktadır.
2.2 Zayıf Denetimin Zorluğu
Temel zorluk, anlatım zaman damgası ile gerçek eylem örneği arasındaki zamansal uyumsuzluktur. Model, gürültülü etikete rağmen, ilgisiz arka plan karelerini bastırmayı ve anlatılan eylemle ilişkili doğru zamansal bölüme odaklanmayı öğrenmelidir.
3. Önerilen Yöntem
3.1 Model Mimarisi Genel Bakış
Önerilen model, RGB karelerinden, optik akıştan (hareket) ve ortam ses parçalarından gelen özellikleri işlemek ve birleştirmek için tasarlanmış çok modlu bir mimaridir. Temel bir bileşen, sağlanan sesli anlatım etiketine olan ilgilerine göre farklı video karelerinin önemini ağırlıklandırmayı öğrenen zamansal bir dikkat mekanizmasıdır.
3.2 Gürültülü Anlatımdan Öğrenme
Model, anlatım zaman damgasını katı bir etiket olarak ele almak yerine, onu zayıf bir ipucu olarak ele alır. Öğrenme hedefi, doğru eylem sınıfı için anlatım noktasına zamansal olarak yakın kareler için yüksek aktivasyon puanlarını teşvik ederken, diğer tüm kareler ve sınıflar için aktivasyonları en aza indirir. Bu, videonun bir kare "torbası" ve pozitif "örneğin" (eylemin) anlatılan noktanın yakınında bir yerde olduğu bir tür çoklu örnek öğrenimi (MIL) biçimine benzer.
3.3 Çok Modlu Özellik Birleştirme
Farklı modalitelerden (görünüm için RGB, hareket için akış, ortam sesi için ses) gelen özellikler, önceden eğitilmiş ağlar (örneğin, RGB/Akış için I3D, ses için VGGish) kullanılarak çıkarılır. Bu özellikler daha sonra, eylem sınıflandırması ve yerelleştirmesi için sağlam bir ortak temsil oluşturmak üzere, erken birleştirme yoluyla veya daha karmaşık bir çapraz modal dikkat modülü aracılığıyla birleştirilir.
4. Deneyler & Sonuçlar
4.1 Veri Seti ve Kurulum
Birincil değerlendirme, yoğun eylem açıklamaları ve karşılık gelen sesli anlatımlara sahip büyük ölçekli bir ben-merkezli video veri seti olan EPIC Kitchens 100 veri seti üzerinde gerçekleştirilmiştir. Model yalnızca anlatım başlangıç zamanları ve transkript edilmiş fiil-isim etiketleri kullanılarak eğitilmiştir. Performans, farklı zamansal Kesişim Üzerine Birleşim (tIoU) eşiklerinde ortalama Ortalama Kesinlik (mAP) gibi standart zamansal eylem tespiti metrikleri kullanılarak ölçülmüştür.
4.2 Nicel Sonuçlar
Makale, yalnızca anlatım denetimi ile eğitilen önerilen modelin, daha pahalı denetimle eğitilen modellerle karşılaştırılabilir performans elde ettiğini göstermektedir. Tam denetimli temel modellerin gerisinde kalsa da, özellikle video başına çok sayıda eylem içeren veri setlerinde, video düzeyinde zayıf denetimli yöntemleri önemli ölçüde geride bırakmaktadır. Bu, anlatımın değerli bir "orta yol" denetim sinyali sağladığı hipotezini doğrulamaktadır.
4.3 Ablasyon Çalışmaları
Ablasyon çalışmaları her bir bileşenin önemini doğrulamaktadır:
- Çok Modluluk: RGB+Akış+Ses özelliklerinin kullanılması, herhangi bir tek modaliteye göre sürekli olarak daha iyi performans gösterir.
- Zamansal Dikkat: Önerilen dikkat mekanizması, ilgisiz kareleri filtrelemek ve yerelleştirme doğruluğunu artırmak için çok önemlidir.
- Anlatım vs. Video Düzeyi: Anlatım etiketleriyle eğitim, EPIC Kitchens'ta yalnızca video düzeyi etiketleri kullanmaktan daha iyi tespit sonuçları verir; bu da birincisinin üstün bilgi içeriğini kanıtlar.
5. Teknik Analiz & Çerçeve
5.1 Matematiksel Formülasyon
Temel öğrenme hedefi, zayıf anlatım sinyali tarafından yönlendirilen bir sınıflandırma kaybı ve bir zamansal yerelleştirme kaybının bir kombinasyonu olarak çerçevelenebilir. $V = \{f_t\}_{t=1}^T$ bir video kare özellikleri dizisi olsun. Zaman damgası $\tau_n$ olan bir anlatım etiketi $y_n$ için, model kare düzeyinde sınıf puanları $s_t^c$ üretir. Her kare için bir zamansal dikkat ağırlığı $\alpha_t$ öğrenilir. Anlatılan eylem için sınıflandırma kaybı ağırlıklı bir toplamdır: $$\mathcal{L}_{cls} = -\log\left(\frac{\exp(\sum_t \alpha_t s_t^{y_n})}{\sum_c \exp(\sum_t \alpha_t s_t^c)}\right)$$ Aynı zamanda, eylem örneği etrafında sivri bir dağılımı teşvik etmek için $\alpha_t$'ye zamansal bir yumuşatma veya seyreklik kaybı $\mathcal{L}_{temp}$ uygulanır. Toplam kayıp $\mathcal{L} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{temp}$'dir.
5.2 Analiz Çerçevesi Örneği
Vaka Çalışması: Model Başarısızlık Modlarını Analiz Etme
Modelin sınırlamalarını anlamak için bir analiz çerçevesi oluşturabiliriz:
- Veri İncelemesi: Modelin tahmininin (zamansal bölüm) gerçek değerle düşük IoU'ya sahip olduğu videoları belirleyin. Bu videoları ve anlatımlarını manuel olarak gözden geçirin.
- Kategorizasyon: Başarısızlıkları kategorilere ayırın. Yaygın kategoriler şunlardır:
- Anlatım Belirsizliği: Anlatım (örneğin, "Yemek hazırlıyorum") çok üst düzeydir ve tek, kısa bir eylem örneğiyle uyuşmaz.
- Bileşik Eylemler: Anlatılan eylem (örneğin, "Bıçağı al ve sebzeyi kes") birden fazla alt eylemden oluşur, bu da modeli karıştırır.
- Arka Plan Hakimiyeti: Eylemin görsel arka planı çok karmaşıktır veya diğer eylem dışı karelere benzer.
- Kök Neden & Azaltma: "Anlatım Belirsizliği" için çözüm, anlatım ayrıntı düzeyini ayrıştırmak için daha karmaşık bir dil modeli kullanmayı veya belirsiz etiketler için aşırı uzun tespitleri cezalandıran bir öğrenme sinyali dahil etmeyi içerebilir.
6. Tartışma & Gelecek Yönelimler
Temel İçgörü: Bu çalışma, veri açıklama darboğazı etrafında pragmatik bir çözümdür. Gerçek dünyada, sesli anlatımlar, altyazılar veya ASR transkriptleri gibi "ücretsiz" denetim sinyallerinin bol olduğunu doğru bir şekilde tespit etmektedir. Gerçek katkı, yeni bir sinir ağı mimarisi değil, mükemmel şekilde küratörlü verileri beklemek yerine, bu gürültülü, gerçek dünya sinyallerini sindirecek öğrenme sistemleri tasarlayabileceğimizin ve tasarlamamız gerektiğinin ikna edici bir kavram kanıtıdır.
Mantıksal Akış: Argüman sağlamdır: örnek düzeyinde açıklama ölçek için sürdürülemez → video düzeyindeki etiketler karmaşık videolar için çok zayıf → sesli anlatım ucuz, bilgilendirici bir orta yol → işte onu kullanabilen bir model. Yoğun eylem dağılımına sahip EPIC Kitchens'ın kullanılması, video düzeyinde denetim kusurunu vurgulamak için ustaca bir hamledir.
Güçlü Yönler & Kusurlar: Güçlü yanı, endüstri uygulamaları (örneğin, içerik moderasyonu, video arama, destekli yaşam) için pratikliği ve net değer önerisidir; burada maliyet önemlidir. Birçok zayıf denetimli yöntemde olduğu gibi kusur, performans tavanıdır. Model temelde denetimindeki gürültü ile sınırlıdır. Yüksek riskli, kesin zamanlama gerektiren uygulamalar için nihai bir çözüm olmasa da harika bir ilk adımdır.
Uygulanabilir İçgörüler: Araştırmacılar için: Herhangi bir metinsel etikete olan bağımlılığı daha da azaltmak için çapraz modal öz-denetimi (örneğin, Radford ve diğerlerinin Kontrastif Dil-Görüntü Ön Eğitimi (CLIP) çalışmasından yararlanarak) keşfedin. Uygulayıcılar için: Bu paradigmi, mevcut transkriptleri veya ses kayıtları olan kurum içi video veri setlerine hemen uygulayın. Kayıtlardaki zaman damgalarını zayıf anlatım noktaları olarak ele alarak başlayın.
Gelecek Yönelimler:
- Büyük Görü-Dil Modellerinden (VLMs) Yararlanma: CLIP veya BLIP-2 gibi modeller güçlü hizalanmış görsel-metin temsilleri sağlar. Gelecekteki çalışmalar, bunları anlatılan ifadeleri video içeriğinde daha iyi temellendirmek için güçlü ön bilgiler olarak kullanabilir, potansiyel olarak bazı belirsizlik sorunlarının üstesinden gelebilir.
- Çapraz Veri Seti Genellemesi: Anlatımlı ben-merkezli mutfak videolarında (EPIC) eğitilmiş bir model, yorumcu sesi olan üçüncü şahıs spor videolarında eylemleri tespit edebilir mi? Anlatım yönlendirmeli öğrenmenin aktarılabilirliğini keşfetmek anahtardır.
- Tespitten Öngörmeye: Anlatım genellikle bir eylemi gerçekleşirken veya hemen sonrasında tanımlar. Bu sinyal, bir eylemi biraz önceden tahmin eden eylem öngörü modellerini öğrenmek için kullanılabilir mi?
- Aktif Öğrenme ile Entegrasyon: Modelin belirsizliği veya dikkat ağırlıkları, yalnızca en kafa karıştırıcı anlatım-video çiftleri için bir insan açıklayıcıdan açıklama istemek için kullanılabilir, böylece oldukça verimli bir insan-döngü içinde açıklama sistemi oluşturulabilir.
7. Kaynaklar
- Ye, K., & Kovashka, A. (2021). Weakly-Supervised Action Detection Guided by Audio Narration. In Proceedings of the ... (PDF Source).
- Damen, D., et al. (2018). Scaling Egocentric Vision: The EPIC-KITCHENS Dataset. European Conference on Computer Vision (ECCV).
- Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. International Conference on Machine Learning (ICML).
- Carreira, J., & Zisserman, A. (2017). Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. Conference on Computer Vision and Pattern Recognition (CVPR).
- Wang, L., et al. (2016). Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. European Conference on Computer Vision (ECCV).
- Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. International Conference on Computer Vision (ICCV).