Zaɓi Harshe

Samar da Labari don Bidiyoyin Zane-zane: Tsarin Aiki, Bayanan Gwaji, da Tsarin Samfurori

Wannan takarda ta gabatar da sabon aikin samar da labari don bidiyoyi, ta gabatar da bayanan gwaji daga Peppa Pig, kuma ta ba da shawarar tsarin samfurori don lokaci da samar da abun ciki.
audio-novel.com | PDF Size: 0.4 MB
Kima: 4.5/5
Kimarku
Kun riga kun ƙididdige wannan takarda
Murfin Takardar PDF - Samar da Labari don Bidiyoyin Zane-zane: Tsarin Aiki, Bayanan Gwaji, da Tsarin Samfurori

1. Gabatarwa & Ma'anar Aiki

Wannan takarda ta gabatar da Samar da Labari, sabon aiki a cikin AI mai nau'i-nau'i wanda ke mai da hankali kan samar da sharhi mai ma'ana, mai ba da gudummawa ga labari don bidiyoyi. Ba kamar bayanin bidiyo na gargajiya ba, wanda ke bayyana abubuwan da ake iya gani, labari yana ba da rubutu mai zurfi, mai cike da bayanan mahallin da ke ci gaba da labarin kuma ana nufin shigar da shi a takamaiman lokutan. Aikin ya bambanta da bayanin bidiyo saboda labarai ba metadata ba ne amma sassa na ainihin labarin bidiyo, galibi suna fahimtar bayanan da ba a iya gani kai tsaye ba.

Marubutan suna jayayya cewa ci gaban samar da rubutu na tushen bidiyo ya kasance a hankali fiye da na hotuna masu tsayi saboda ƙarin rikitarwa na tunani na lokaci. Wannan aikin yana nufin rage wannan tazara ta hanyar tsara aikin da samar da bayanan gwaji na musamman.

2. Bayanan Labari na Peppa Pig

Don sauƙaƙe bincike, marubutan sun ƙirƙiri sabon bayanan gwaji da aka samo daga jerin wasan kwaikwayo na Peppa Pig. Wannan zaɓi ya keɓe daga rikitarwar bidiyo na ainihin duniya (misali, haske, rufewa) da tattaunawa na manya, yana ba da damar ingantacciyar kimanta ainihin fasahohin samar da rubutu.

2.1. Tattara Bayanai & Halaye

Bayanan gwaji sun ƙunshi guntun bidiyo tare da rubutun da suka dace, waɗanda aka raba zuwa tattaunawar haruffa da layukan mai ba da labari. Layukan mai ba da labari suna aiki azaman labaran gaskiya. Manyan halaye sun haɗa da:

  • Tushe: Sassa na Peppa Pig.
  • Abun Ciki: Guntun bidiyo masu haɗin gwiwa, rubutun tattaunawa, da rubutun mai ba da labari.
  • Manufa: Yana ba da bayanan nau'i-nau'i masu daidaitawa (na gani, sauti, rubutu) don horarwa da kimanta samfurorin samar da labari.

2.2. Tsarin Bayanai & Misalai

Kowane bayani ya haɗa da lokacin guntun bidiyo, yanayin gani (hoton wakilci), tattaunawar haruffa, da rubutun labarin da ake nufi. Kamar yadda aka nuna a Hoto na 1 na PDF, labarai na iya zama mai bayyanawa (misali, "Mista Dinosaur an lulluɓe shi tare da shi") ko na fahimta/mahallin (misali, "Peppa tana son kula da ɗan'uwanta, George"), yana nuna rikitarwar aikin.

Misali daga Bayanan Gwaji:

Lokacin Alama: 01:24 – 01:27
Tattaunawa: (Babu wanda aka nuna a cikin wannan guntun)
Na Gani: George a kan gado tare da wasan dinosaur.
Labari: "Lokacin da George ya tafi gado, Mista Dinosaur an lulluɓe shi tare da shi."

3. Tsarin Aiki & Hanyoyin Aiki

Babban gudummawar shine tsara rarraba samar da labari zuwa ayyuka biyu masu dogaro da juna.

3.1. Aikin Mataki Biyu: Lokaci & Abun Ciki

Marubutan sun ba da shawarar bayyanannen rarrabuwa:

  1. Samar da Lokaci: Ƙayyade lokacin da ya kamata a shigar da labari a cikin lokutan bidiyo. Wannan ya haɗa da gano katsewar yanayi ko lokutan inda sharhin labari zai dace.
  2. Samar da Abun Ciki: Idan aka ba da guntun bidiyo da mahallinsa, samar da abin da rubutun labari ya kamata ya faɗi. Wannan yana buƙatar fahimtar labarin, dangantakar haruffa, da fahimtar bayanan da suka wuce na gani kawai.

Wannan tsarawa yayi daidai da hanyoyin samarwa a cikin zane-zane da fina-finai, inda lokaci (gyara) da abun ciki (rubutun allo) galibi ke zama ayyuka daban-daban amma masu daidaitawa.

3.2. Tsarin Samfurori da aka Gabatar

Takardar ta gabatar da jerin samfurori da ke magance aikin. Duk da cewa cikakkun bayanan gine-gine an taƙaita su a cikin guntun da aka bayar, hanyar tana iya haɗawa da:

  • Masu Rufe Nau'i-nau'i: Sarrafa siffofin gani (daga firam ɗin bidiyo) da siffofin rubutu (daga rubutun tattaunawa).
  • Tsarin Lokaci: Yin amfani da samfurori na jeri (misali, LSTMs, Transformers) don ɗaukar mahallin a cikin lokaci.
  • Mai Fassara Biyu ko Bututu: Wani ɓangare don hasashen lokacin/rarrabuwar labari, da wani kuma don samar da rubutun da aka ƙulla akan zaɓaɓɓen ɓangaren.

Wata yuwuwar sauƙaƙaƙiyar manufar horarwa na iya haɗa asarar lokaci da abun ciki: $\mathcal{L} = \lambda_{time} \mathcal{L}_{time} + \lambda_{content} \mathcal{L}_{content}$, inda $\mathcal{L}_{content}$ na iya zama asarar giciye don samar da rubutu kuma $\mathcal{L}_{time}$ na iya zama asarar koma baya ko asarar gano iyaka.

4. Tsarin Gwaji & Sakamako

An kimanta samfurorin akan sabon bayanan gwaji na Peppa Pig.

4.1. Ma'aunin Kimantawa

An yi amfani da ma'auni na yau da kullun na Samar da Harshe na Halitta (NLG), kamar:

  • BLEU (Malami na Kimantawa na Harshe Biyu): Yana auna daidaiton n-gram akan rubutun tunani.
  • ROUGE (Malami Mai Mai da Hankali kan Tunawa don Kimanta Taƙaitawa): Yana mai da hankali kan tunawa da n-grams da jerin kalmomi.
  • METEOR (Ma'auni don Kimanta Fassarar tare da Tsari Bayyananne): Yana la'akari da ma'ana iri ɗaya da tushe, yana daidaitawa da hukuncin ɗan adam.
  • CIDEr (Kimantawa na Bayanin Hotuna bisa Yarjejeniya): Asali don bayanin hoto, yana auna yarjejeniya ta hanyar ma'aunin TF-IDF, mai yuwuwa mai amfani don kimanta jimlolin labari na gama-gari.

Daidaicin lokaci ana iya auna shi ta amfani da Haɗin kai-akan-Ƙungiya (IoU) tsakanin ɓangarorin labari da aka tsinkaya da na gaskiya.

4.2. Babban Bincike & Aiki

Duk da cewa ba a cika sakamako a cikin guntun ba, takardar tana nuna cewa:

  • Samfurorin da ke amfani da mahallin gani da tattaunawa sun fi na tushen gani kawai.
  • Hanyar mataki biyu (lokaci sannan abun ciki) tana da fa'ida idan aka kwatanta da samar da rubutu tare da alamun lokaci gaba ɗaya.
  • Samar da labari ya fi wahala fiye da bayani na yau da kullun, kamar yadda aka nuna a cikin ƙananan maki na atomatik, saboda yanayin mahallin da fahimta.

Fahimtar Aiki

Samfurorin suna fama da mafi yawan samar da labarai na fahimta (misali, "Peppa tana son kula da...") idan aka kwatanta da na bayyanawa (misali, "Mista Dinosaur an lulluɓe..."), yana nuna buƙatar zurfin fahimtar labari.

5. Binciken Fasaha & Tsarin Aiki

Babban Fahimta, Tsarin Ma'ana, Ƙarfi & Kurakurai, Fahimta Mai Aiki

Babban Fahimta: Babban nasarar takardar shine gane cewa labarin bidiyo ba kawai bayani mai kyau ba ne—aikin AI ne na darakta da edita. Yana buƙatar samfurin ya zama editan labari, yana yanke shawarar ba kawai abin da za a faɗa ba, amma mahimmanci lokacin da za a faɗa shi don haɓaka tasirin labari. Wannan ya raba shi da sanannen hanyar bayanin bidiyo mai zurfi (misali, Bayanan ActivityNet) kuma ya daidaita shi kusa da labarun lissafi da gyaran bidiyo ta atomatik.

Tsarin Ma'ana: Ma'anar marubutan tana da tsabta abin burgewa: 1) Keɓance matsalar ta hanyar amfani da bayanan zane-zane (Peppa Pig) don cire ma'anar gani mai hayaniya na ainihin duniya, 2) Rarraba babban aikin "samar da labari" zuwa tsarin masana'antu na "lokaci" (matsalar gyara) da "abun ciki" (matsalar rubutun allo), da 3) Bayar da bayanan gwaji don auna ci gaba. Wannan shine girke-girke na gargajiya don ingantaccen binciken AI: ayyana, rarraba, da auna.

Ƙarfi & Kurakurai: Ƙarfin yana cikin ma'anar aiki da ƙirƙirar bayanan gwaji—wannan sabon abu ne na gaske kuma mai amfani. Zaɓin Peppa Pig yana da wayo don keɓancewa amma kuma babban kuskure ne. Ya haifar da yuwuwar "gibin zane-zane"; samfurorin da aka horar da su akan wannan duniya mai tsari, mai tsari na iya gazawa sosai akan ɓatattun labarai, masu shakku na bidiyo na rayuwa. Kamar yadda aka gani a cikin ƙalubalen canja samfurori daga kwaikwayo zuwa yanayi na gaske a cikin injinan mutum-mutumi (kamar yadda aka tattauna a cikin binciken OpenAI kan bazuwar yanki), wannan tsalle ne mai mahimmanci. Bugu da ƙari, takardar ta nuna amma ba ta cika fuskantar matsalar kimantawa ba. Ma'auni kamar BLEU sanannen su ne marasa kyau wajen ɗaukar haɗin kai da niyya na labari. Ta yaya kuke maki idan labari ya kasance "mai fahimta" ko "mai kyau a lokacin wasan kwaikwayo"?

Fahimta Mai Aiki: Ga masu aiki, abin da za a ɗauka nan take shine a ɗauki ayyukan AI na bidiyo tare da ɓangaren labari azaman bututu mai mataki biyu. Kada kawai ku ciyar da bidiyo cikin janareta na rubutu. Da farko, gina ko amfani da samfuri don gano "bugun labari" ko "wuraren gyara" (aikin lokaci). Wannan yana da ƙimar kansa don taƙaita bidiyo da gano abubuwan da suka fi dacewa. Na biyu, dole ne mai samar da abun ciki ya kasance a cikin taguwar mahallin wanda ya haɗa da labarin gani da tattaunawa na baya, ba kawai firam ɗin nan take ba. Ga masu bincike, matakai na gaba suna bayyananne: 1) Kai hari "gibin zane-zane" ta hanyar ƙirƙira ko daidaita bayanan gwaji tare da ƙarin rikitarwa, labarai na rayuwa (misali, daga sitcoms ko shirye-shiryen gaskiya), da 2) Ƙirƙirar sabbin ma'auni na kimantawa, watakila yin amfani da manyan samfurori na harshe (LLMs) a matsayin alkalai don ingancin labari, fasaha da ke samun karbuwa a fagage kamar kimantawar tattaunawa, kamar yadda aka ambata a cikin aikin Meta AI da Anthropic.

Misalin Tsarin Bincike

Yanayi: Bincika guntun bidiyo daga zane-zane na ilimi inda hali ke ƙoƙarin gina wasa.

  1. Rarraba Shigarwa: Raba guntun bidiyo na dakika 30 zuwa tazara na dakika 5. Cire siffofin gani (abubuwa: tubalan, hali mai takaici) da tattaunawa ("Wannan ba zai dace ba!").
  2. Module na Lokaci: Samfurin ya gano babban "makin labari" a alamar dakika 15 (kololuwar takaici) da a alamar dakika 28 (lokacin nasara).
  3. Taguwar Mahalli: Don maki na farko, mai samar da abun ciki yana karɓar siffofi daga dakika 10-20, da duk tattaunawar da ta gabata.
  4. Samar da Abun Ciki: Dangane da mahallin, yana samar da labari: "Sam yana samun takaici saboda guntun ba su da alama sun dace." Don maki na biyu: "Bayan yin wata hanya daban, Sam a ƙarshe ya gano yadda tubalan suke haɗuwa."
  5. Fitarwa: Sassa biyu na labari tare da takamaiman alamun lokacinsu da rubutu.

Wannan tsarin yana nuna rabuwar lokaci (na edita) da yanke shawara na abun ciki (rubutun allo).

6. Ayyukan Gaba & Hanyoyin Bincike

Tasirin wannan binciken ya wuce ma'auni na ilimi:

  • Samun dama: Samar da labari mai bayyanawa ta atomatik don marasa gani don faɗin abun ciki na bidiyo.
  • Ƙirƙirar Abun Ciki & Ƙaddamarwa: Samar da saurin waƙoƙin mai ba da labari don bidiyoyin ilimi, shirye-shiryen gaskiya, ko kayan horarwa na kamfani, mai yuwuwa a cikin harsuna da yawa.
  • Kafofin Watsa Labarai masu Mu'amala & Wasanni: Labari mai motsi wanda ya dace da ayyukan ɗan wasa ko matakin fahimtar mai kallo.
  • Taƙaita Bidiyo: Samar da taƙaitaccen labari wanda ke nuna maki na makirci maimakon kawai lissafin ayyuka.

Manyan Hanyoyin Bincike:

  1. Gina Gibin Salon: Haɓaka fasahohin canja samfurori daga bayanan zane-zane zuwa nau'ikan bidiyo na ainihin duniya daban-daban.
  2. Haɗa Sauti & Kiɗa: Guntun da aka bayar yana mai da hankali kan alamun gani da rubutu. Aikin gaba dole ne ya haɗa siffofin sauti (tasirin sauti, sautin kiɗa) a matsayin sigina mai ƙarfi don lokaci da abun ciki na motsin rai na labari.
  3. Labari na Keɓaɓɓe: Samar da labarai da suka dace da ƙungiyoyin shekaru daban-daban, mahallin al'adu, ko ilimin da ya gabata.
  4. Samar da Bayyanawa & Mai Sarrafawa: Ba da damar masu ƙirƙirar abun ciki su jagoranci salon labari (misali, mai ban dariya, mai mahimmanci, mai ban tsoro) ko ƙayyadaddun mahimman maki don haskakawa.

7. Nassoshi

  • Papasarantopoulos, N., & Cohen, S. B. (2021). Samar da Labari don Bidiyoyin Zane-zane. arXiv preprint arXiv:2101.06803.
  • Bernardi, R., et al. (2016). Samar da Bayanin Kansu daga Hotuna: Binciken Samfurori, Bayanan Gwaji, da Ma'aunin Kimantawa. Journal of Artificial Intelligence Research.
  • Gatt, A., & Krahmer, E. (2018). Binciken Matsayin Fasaha a cikin Samar da Harshe na Halitta: Ayyuka na asali, aikace-aikace da kimantawa. Journal of Artificial Intelligence Research.
  • Zhu, J.-Y., et al. (2017) Fassarar Hotuna-zuwa-Hoto mara Haɗin gwiwa ta amfani da Cibiyoyin Adawa masu Daidaitawa. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (CycleGAN - don ra'ayoyin canja salon da suka dace da gina gibin zane-zane).
  • OpenAI. (2018). Koyon Ƙwararren Sarrafa Hannu. (Tattauna bazuwar yanki don canja sim-zuwa-gaske).
  • Meta AI. (2023). Ƙirƙira a cikin Kimantawar LLM don Tattaunawa da Taƙaitawa. (Kan amfani da LLMs a matsayin alkalai).
  • Mostafazadeh, N., et al. (2016). Corpus da Kimantawar Cloze don Zurfin Fahimtar Labarun Hankali. Proceedings of NAACL-HLT.