Chagua Lugha

AudioBoost: Kuboresha Ugunduzi wa Vitabu vya Sauti katika Tafuta ya Spotify Kupitia Maswali Bandia Yanayotokana na LLM

Uchambuzi wa AudioBoost, mfumo unaotumia LLM kutengeneza maswali bandia kutoka kwenye metadata ya vitabu vya sauti ili kuboresha utaftaji na mapendekezo ya maswali katika hali ya kuanzia baridi ya Spotify.
audio-novel.com | PDF Size: 0.6 MB
Ukadiriaji: 4.5/5
Ukadiriaji Wako
Umekadiria waraka huu tayari
Kifuniko cha Waraka PDF - AudioBoost: Kuboresha Ugunduzi wa Vitabu vya Sauti katika Tafuta ya Spotify Kupitia Maswali Bandia Yanayotokana na LLM

1. Utangulizi & Taarifa ya Tatizo

Upanuzi wa Spotify kwenye vitabu vya sauti uliunda tatizo la kawaida la kuanzia baridi. Mifumo ya utafutaji na mapendekezo ya jukwaa hilo, iliyoboreshwa kwa miaka ya mwingiliano wa muziki na podcast, ilikumbwa na upendeleo mkubwa wa kutoweza kupatikana dhidi ya aina hii mpya ya maudhui. Watumiaji hawakuwa wamezoea kutafuta vitabu vya sauti, na mifumo hiyo haikuwa na data ya kutosha ya mwingiliano ili kuwaweka katika nafasi sahihi ikilinganishwa na maudhui yaliyokuwepo. Hii ilizua mzunguko mbaya: kuonekana kwa chini kulisababisha mwingiliano mdogo, ambao kwa upande wake uliimarisha nafasi duni. Changamoto kuu ilikuwa mbili: 1) Kuwahimiza watumiaji kuandika maswali ya uchunguzi, yanayotokana na mada kwa vitabu vya sauti (mfano, "vijitabu vya kutisha vya kisaikolojia vilivyowekwa Scandinavia") badala ya majina maalum, na 2) Kukuza mifumo ya utaftaji ili kushughulikia kwa ufanisi maswali haya mapana ya uchunguzi ambayo hakukuwa na data nyingi halisi ya watumiaji.

2. Mfumo wa AudioBoost

AudioBoost ndiyo jibu la kiufundi la Spotify kwa changamoto hii ya kuanzia baridi. Sio tu marekebisho ya nafasi, bali ni uingiliaji wa kimfumo kwa kutumia data bandia kuanzisha ugunduzi.

2.1 Mbinu ya Msingi

Mfumo huu unatumia metadata tajiri, iliyopangwa inayohusishwa na kila kitabu cha sauti (kichwa, mwandishi, mchapishaji, aina, muhtasari, mbinu). Metadata hii ndiyo chanzo cha uundaji.

2.2 Uundaji wa Maswali Bandia kwa LLM

Mfano Mkubwa wa Lugha (LLM) unahimizwa kutengeneza maswali kadhaa yanayowezekana ya utafutaji wa mtumiaji yanayotokana na metadata hii. Kwa mfano, kwa kuzingatia metadata ya kitabu cha sauti cha sayansi-fasihi kinachohusu AI, LLM inaweza kutengeneza maswali kama: "riwaya bora za AI zenye maangamizi," "vitabu vya sayansi-fasihi kuhusu fahamu," "hadithi za baadaye kuhusu teknolojia." Mchakato huu huunda bandia "mkia mrefu" wa trafiki ya utafutaji ambayo ingekua kiasili baada ya muda.

2.3 Mkakati wa Fahirisi Mbili

Ujanja wa AudioBoost uko katika matumizi yake mawili:

  • Kukamilisha Otomatiki kwa Maswali (QAC): Maswali bandia huingizwa kama mapendekezo, yakiathiri moja kwa moja tabia ya watumiaji kwa kuwapa wazo la utafutaji wa uchunguzi.
  • Injini ya Utaftaji wa Tafuta: Maswali hayo hayo bandia hufahiriswa dhidi ya kitabu cha sauti, na kuboresha alama yake ya mechi kwa maswali sawa halisi ya watumiaji, na hivyo kuongeza uwezekano wake wa kupatikana.
Hii huunda mzunguko chanya wa maoni: mapendekezo bora husababisha maswali zaidi ya uchunguzi, ambayo kisha hutumiwa vyema na mfumo wa utaftaji.

Matokeo Muhimu Kwa Mtazamo Mmoja

  • Kuonekana kwa Vitabu vya Sauti: +0.7%
  • Kubofya kwa Vitabu vya Sauti: +1.22%
  • Ukamilishaji wa Maswali ya Uchunguzi: +1.82%

Chanzo: Mtihani wa A/B Mtandaoni, Mfumo wa AudioBoost

3. Utekelezaji wa Kiufundi & Tathmini

3.1 Vipimo vya Tathmini Nje ya Mtandao

Kabla ya mtihani wa moja kwa moja, ubora na matumizi ya maswali bandia yalitathminiwa nje ya mtandao. Vipimo huenda vilihusisha:

  • Uhusiano wa Swali: Tathmini ya kibinadamu au inayotokana na mfumo ya kama swali lililotengenezwa ni la kukubalika la utafutaji kwa kitabu cha sauti kinachohusishwa.
  • Ufuniko wa Upatikanaji: Kupima ongezeko la idadi ya vitabu vya sauti vinavyoonekana katika matokeo ya juu-K ya utafutaji kwa kikapu cha maswali ya mtihani baada ya kufahamisha data bandia.
  • Utofauti & Uvutio: Kuhakikisha maswali yaliyotengenezwa yanashughulikia anuwai ya nia za utafutaji (mada, aina, mbinu, hali) zaidi ya mechi dhahiri za kichwa/mwandishi.
Karatasi inaonyesha maswali bandia yalionyesha kuwa ya "ubora wa juu" na kuongeza uwezekano wa kupatikana katika mazingira haya ya nje ya mtandao.

3.2 Matokeo ya Mtihani wa A/B Mtandaoni

Uthibitisho wa mwisho ulikuwa mtihani wa kudhibitiwa wa A/B mtandaoni. Kikundi cha matibabu kilipata utafutaji na AudioBoost kikiwa kimewashwa. Matokeo yalikuwa muhimu kitakwimu na yenye maana kwa utendaji:

  • +0.7% Kuonekana kwa Vitabu vya Sauti: Vitabu vya sauti zaidi vilionekana katika matokeo ya utafutaji.
  • +1.22% Kubofya kwa Vitabu vya Sauti: Watumiaji walishiriki zaidi na matokeo haya ya vitabu vya sauti.
  • +1.82% Ukamilishaji wa Maswali ya Uchunguzi: Muhimu zaidi, watumiaji walipokea maswali ya uchunguzi yaliyopendekezwa na mfumo kwa kiwango cha juu zaidi, na kuthibitisha kwamba msukumo wa tabia ulifanya kazi.
Vipimo hivi vinathibitisha kuwa AudioBoost ilifanikiwa kuvunja mzunguko wa kuanzia baridi.

3.3 Viashiria Muhimu vya Utendaji (KPIs)

KPIs zilizochaguliwa zimeunganishwa kwa ustadi na malengo ya biashara na bidhaa: Ugunduzi (Kuonekana), Ushiriki (Kubofya), na Mabadiliko ya Tabia ya Maswali (Ukamilishaji wa Uchunguzi).

4. Ufahamu wa Msingi & Mtazamo wa Mchambuzi

Ufahamu wa Msingi: AudioBoost ya Spotify ni mfano bora wa utumiaji wa AI ya vitendo. Inabadilisha mtazamo wa tatizo la kuanzia baridi si kama ukosefu wa data, bali kama ukosefu wa ishara. Badala ya kungojea watumiaji kutoa ishara hiyo kiasili (jambo lisilofaa kwa orodha mpya), inatumia LLM kuiga nia ya mtumiaji kwa kiwango kikubwa, na kwa ufanisi kuanzisha soko. Hii ni mageuzi ya kisasa zaidi ya uchujaji wa kawaida unaotokana na maudhui, unaoimarishwa na uwezo wa AI ya kutengeneza kuelewa na kuiga nuances za lugha ya kibinadamu.

Mtiririko wa Mantiki: Mantiki ya mfumo huu ni mviringo kwa ustadi na inajithibitisha yenyewe. Metadata → Maswali Bandia → QAC na Utaftaji Bora → Ushiriki wa Mtumiaji → Data Halisi → Mifumo Bora. Ni njia fupi ya kiufundi kwa athari za mtandao ambazo majukwaa kama Spotify yanategemea. Mbinu hii inakumbusha mbinu katika taswira ya kompyuta kama CycleGAN (Zhu et al., 2017), ambayo hujifunza kutafsiri kati ya nyanja (mfano, farasi hadi punda milia) bila mifano iliyowekwa pamoja. Vile vile, AudioBoost hujifunza "kutafsiri" kati ya nyanja ya metadata ya kitabu cha sauti na nyanja ya nia ya utafutaji wa mtumiaji, bila kutegemea data ya mwingiliano iliyowekwa pamoja (swali, kitabu cha sauti) mwanzoni.

Nguvu & Kasoro: Nguvu kuu ni uwezekano wake wa kutekelezwa mara moja na athari yake, kama inavyoonyeshwa na mtihani chanya wa A/B. Ni uingiliaji wa hatari ndogo, faida kubwa ambayo hufanya kazi ndani ya miundombinu iliyopo (QAC, fahirisi ya utaftaji). Hata hivyo, mbinu hii ina kasoro asilia. Kwanza, ina hatari ya kuunda "chumba cha kurudia sauti cha usanisi"—ikiwa utengenezaji wa maswali wa LLM una upendeleo au ukomo, inaweza kufinya, badala ya kupanua, mandhari ya ugunduzi. Pili, inaweza kutenganisha utaftaji na masilahi halisi ya mtumiaji kwa muda mfupi; kitabu kinaweza kutafutwa kwa swali bandia ambalo hakuna mtumiaji halisi anayejali. Tatu, kama ilivyobainishwa na utafiti kutoka taasisi kama Stanford HAI, kutegemea kupita kiasi data bandia kunaweza kusababisha kufunguka kwa mfumo au kuteleza kwa ghafla ikiwa haitasimamiwa kwa uangalifu na mizunguko ya maoni ya data halisi.

Ufahamu Unaoweza Kutekelezwa: Kwa viongozi wa bidhaa, hitimisho ni wazi: AI ya Kutengeneza ndiyo silaha yako ya mwisho ya kuanzia baridi. Mchoro huu unaweza kurudiwa katika nyanja mbalimbali—aina mpya za bidhaa, soko mpya la kijiografia, aina mpya za maudhui. Ufunguo ni kuzingatia ubora na utofauti wa mchakato wa kutengeneza. Wekeza katika uhandisi wa haraka, utayarishaji, na uthibitishaji wa matokeo bandia kama kazi ya kwanza ya uhandisi. Zaidi ya hayo, panga kwa kupitwa na wakati kwa mfumo; lengo la AudioBoost linapaswa kuwa kuharakisha ukusanyaji wa data halisi ili safu ya bandia iweze kufutwa hatua kwa hatua au kupunguzwa uzito, na kuhamia kwenye mfumo kamili wa ugunduzi wa kiasili. Hii sio mkongojo wa kudumu, bali kichocheo cha kimkakati.

5. Maelezo ya Kiufundi & Mfumo wa Hisabati

Ingawa karatasi haichungui fomula ngumu, uboreshaji wa msingi wa utaftaji unaweza kufikiriwa. Acha $R(q, d)$ iwe alama ya uhusiano wa hati (kitabu cha sauti) $d$ kwa swali $q$ katika mfumo wa asili. Katika kuanzia baridi, kwa kitabu cha sauti $d_a$ na swali la uchunguzi $q_e$, $R(q_e, d_a)$ ni ya chini kutokana na data chache.

AudioBoost hutengeneza seti ya maswali bandia $Q_s = \{q_{s1}, q_{s2}, ..., q_{sn}\}$ kwa $d_a$. Mfumo wa utaftaji kisha huongezwa ili alama mpya ya uhusiano $R'(q, d)$ izingatie mechi kwa maswali haya bandia. Mtazamo rahisi unaweza kuwa:

$R'(q_e, d_a) = R(q_e, d_a) + \lambda \cdot \sum_{q_s \in Q_s} \text{sim}(q_e, q_s) \cdot I(d_a, q_s)$

Ambapo:

  • $\text{sim}(q_e, q_s)$ ni alama ya ufanano wa maana kati ya swali la uchunguzi la mtumiaji na swali bandia (mfano, kutoka kwa mfumo wa kuingiza).
  • $I(d_a, q_s)$ ni kiashiria au nguvu ya uhusiano kati ya $d_a$ na $q_s$ (iliyoanzishwa na utengenezaji wa LLM).
  • $\lambda$ ni parameta ya kuchanganya inayodhibiti ushawishi wa ishara bandia, ambayo inapaswa kupungua kadri data halisi inavyokusanyika.
Mfumo huu unaonyesha jinsi maswali bandia yanavyofanya kazi kama daraja, na kuongeza alama ya $d_a$ kwa $q_e$ kupitia ufanano wa maana na maswala yake yaliyotengenezwa mapema.

6. Mfumo wa Uchambuzi: Kisa kisicho na Msimbo

Hali: Jukwaa jipya la kutiririsha "StreamFlow" lanzia kategoria maalum za vichekesho vya kusimama. Linakabiliwa na tatizo lile la kuanzia baridi kama Spotify na vitabu vya sauti.

Kutumia Mfumo wa AudioBoost:

  1. Tambua Metadata: Kwa kila kipindi maalum cha vichekesho: Jina la mcheshi, kichwa maalum, lebo (mfano, uchunguzi, kisiasa, kisicho cha kawaida), maneno muhimu ya nakala, mwaka wa kurekodi, hali ya hadhira (kelele, karibu).
  2. Fafanua Haraka za Uundaji wa Maswali: Tengeneza haraka za LLM kama: "Kwa kuzingatia kipindi maalum cha vichekesho cha [Mcheshi] chenye kichwa [Kichwa] na lebo [Lebo], tengeneza maswali 10 tofauti ya utafutaji ambayo mtumiaji anaweza kuandika kupata maudhui sawa ya vichekesho. Jumuisha maswali kuhusu mtindo, mada, hali, na wachekeshi wanaofanana."
  3. Tengeneza & Fahamisha: Kwa kipindi maalum kilicho na lebo "dhihaka ya kisiasa," "miaka ya 2020," LLM hutengeneza: "maoni ya kisiasa ya kuchekesha," "dhihaka bora juu ya matukio ya sasa," "wachekeshi kama [Mcheshi]," "vichekesho vya kusimama kuhusu jamii ya kisasa." Hizi hufahamishwa.
  4. Matumizi Mabili: Maswali haya yanaonekana kama mapendekezo wakati mtumiaji anaanza kuandika "vichekesho kuhusu...". Pia husaidia kupata kipindi hiki maalum wakati mtumiaji anatafuta "vipindi vya habari vya dhihaka."
  5. Pima & Rudia: Fuatilia KPIs: Kuonekana kwa vipindi maalum vya vichekesho, kuanza kuchezwa, na matumizi ya mapendekezo ya maswali yaliyotengenezwa. Tumia data hii halisi kuboresha haraka ya LLM na kupunguza hatua kwa hatua parameta $\lambda$ kwa vipindi maalum vya zamani kadri vinavyokusanya kutazamwa.
Kisa hiki kinaonyesha uwezekano wa kuhamishwa kwa dhana ya msingi zaidi ya vitabu vya sauti.

7. Matumizi ya Baadaye & Mwelekeo wa Utafiti

Mfano wa AudioBoost unafungua njia kadhaa za baadaye zinazovutia:

  • Utaftaji wa Kuvuka Mbinu & Mbinu Nyingi: Kupanua zaidi ya maswali ya maandishi. Je, vipande vya sauti bandia (mfano, "cheza kitu kinachosikika kama hiki") au bodi za hali za kuona zinaweza kutengenezwa kutoka kwa metadata kuanzisha utafutaji wa sauti au kuona?
  • Uundaji wa Kibinafsi wa Bandia: Kuhamia kutoka kwa maswali bandia yanayofaa kwa wote hadi kutengeneza maswali yanayotokana na wasifu wa kibinafsi wa mtumiaji. Kwa mfano, kwa mtumiaji anayesikiliza podcast za historia, tengeneza maswali ya vitabu vya sauti kama "wasifu wa kihistoria na utafiti wa kina" badala ya yale ya jumla.
  • Usanisi wa Kukabiliana na Mabadiliko: Badala ya utengenezaji wa kundi tuli, kuunda mfumo ambapo mfumo wa utengenezaji wa maswali bandia unabadilika kila wakati kulingana na maswali gani bandia yanayosababisha ushiriki wa mtumiaji, na kuunda mzunguko unaojiboresha yenyewe.
  • Kupunguza Upendeleo wa Bandia: Mwelekeo mkuu wa utafiti ni kuendeleza mbinu za kukagua na kuhakikisha utofauti na haki ya maswali yanayotokana na LLM ili kuzuia kuongezeka kwa upendeleo wa kijamii au wa orodha katika mchakato wa ugunduzi. Mbinu kutoka kwa utafiti wa haki ya algoriti zitakuwa muhimu hapa.
  • Matumizi katika Utaftaji wa Biashara: Mbinu hii inatumika moja kwa moja kwa injini za utafutaji za ndani za kampuni kwa hifadhi mpya za hati, misingi ya maarifa, au orodha za bidhaa, ambapo tabia ya awali ya utafutaji wa watumiaji haijulikani.
Upeo wa mbele uko katika kufanya mchakato wa utengenezaji bandia kuwa wa kukabiliana zaidi, wa kibinafsi, na wenye kuwajibika.

8. Marejeo

  1. Azad, H. K., & Deepak, A. (2019). Query expansion techniques for information retrieval: A survey. Information Processing & Management, 56(5), 1698-1735.
  2. Jiang, J. Y., et al. (2021). Understanding and predicting user search mindset. ACM Transactions on Information Systems.
  3. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). [Chanzo cha Nje - CycleGAN]
  4. Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). On the Risks and Challenges of Synthetic Data. [Chanzo cha Nje - Taasisi ya Utafiti]
  5. Palumbo, E., Penha, G., Liu, A., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. In Proceedings of the EARL Workshop@RecSys.
  6. Bennett, P. N., et al. (2012). Modeling the impact of short- and long-term behavior on search personalization. In Proceedings of the 35th international ACM SIGIR conference.