Chagua Lugha

AudioBoost: Uboreshaji wa Ugunduzi wa Vitabu vya Sauti katika Tafuta ya Spotify Kupitia Maswali Bandia Yanayotokana na LLM

Utafiti wa kutumia Mfumo Mkubwa wa Lugha (LLM) kutengeneza maswali bandia ya kuboresha upatikanaji wa vitabu vya sauti katika mfumo wa kutafuta wa Spotify, kushughulikia changamoto za kuanza kwa baridi kupitia ukamilishaji otomatiki wa maswali na uboreshaji wa utaftaji.
audio-novel.com | PDF Size: 0.6 MB
Ukadiriaji: 4.5/5
Ukadiriaji Wako
Umekadiria waraka huu tayari
Kifuniko cha Waraka PDF - AudioBoost: Uboreshaji wa Ugunduzi wa Vitabu vya Sauti katika Tafuta ya Spotify Kupitia Maswali Bandia Yanayotokana na LLM

Yaliyomo

1. Utangulizi

Kuanzishwa kwa vitabu vya sauti na Spotify kulileta tatizo kubwa la kuanza kwa baridi, ambapo yaliyomo mapya hupata upatikanaji mdhoofu ukilinganisha na muziki na vipindi vya redio vilivyokua. Mfumo wa AudioBoost unashughulikia changamoto hii kwa kutumia Mfumo Mkubwa wa Lugha (LLM) kutengeneza maswali bandia yanayoboresha uundaji wa maswali na uwezo wa utaftaji.

Vipimo Muhimu vya Utendaji

  • Mionekano ya Vitabu vya Sauti: +0.7%
  • Mibofyo ya Vitabu vya Sauti: +1.22%
  • Ukamilishaji wa Maswali ya Uchunguzi: +1.82%

2. Mbinu

2.1 Uundaji wa Maswali Bandia

AudioBoost hutumia LLM zilizowekwa kwenye metadata ya kitabu cha sauti kutengeneza maswali mbalimbali ya uchunguzi yanayofunua mada, aina, dhana za hadithi, na muongo. Mchakato wa uundaji hufuata mbinu ya muundo wa uundaji wa msukumo ili kuhakikisha ubora na uhusiano wa maswali.

2.2 Uunganishaji wa Ukamilishaji Otomatiki wa Maswali

Maswali bandia yanaunganishwa kwenye mfumo wa Ukamilishaji Otomatiki wa Maswali wa Spotify ili kuwahimiza watumiaji kuandika maswali zaidi ya uchunguzi, na hivyo kushughulikia tofauti kati ya tabia ya utafutaji wa mtumiaji na yaliyomo katika kitabu cha sauti.

2.3 Uboreshaji wa Mfumo wa Utaftaji

Maswali yaliyotengenezwa yamewekwa kwenye faharasa ya injini ya utaftaji ya Spotify, na hivyo kuunda njia za ziada za kugundua vitabu vya sauti kupitia utaftaji mpana unaolenga mada, badala ya tu kufanana kwa jina halisi.

3. Utekelezaji wa Kiufundi

3.1 Mfumo wa Kihisabati

Uboreshaji wa upatikanaji unaweza kuonyeshwa kwa kutumia mfumo wa uwezekano: $P(r|q,d) = \frac{\exp(\text{sim}(q,d))}{\sum_{d' \in D} \exp(\text{sim}(q,d'))}$ ambapo $q$ inawakilisha maswali, $d$ inawakilisha hati, na $\text{sim}$ ni kitendakazi cha kufanana. Uundaji wa maswali bandia unalenga kuongeza $\sum_{q \in Q_{\text{syn}}} P(r|q,d_{\text{kitabu cha sauti}})$.

3.2 Utekelezaji wa Msimbo

class AudioBoostQueryGenerator:
    def __init__(self, llm_model, metadata_fields):
        self.llm = llm_model
        self.fields = metadata_fields
    
    def generate_queries(self, audiobook_data, num_queries=10):
        prompt = self._construct_prompt(audiobook_data)
        synthetic_queries = self.llm.generate(
            prompt=prompt,
            max_tokens=50,
            num_return_sequences=num_queries
        )
        return self._filter_queries(synthetic_queries)
    
    def _construct_prompt(self, data):
        return f"""Tengeneza maswali mbalimbali ya utafutaji kwa kitabu cha sauti:
        Kichwa: {data['title']}
        Mwandishi: {data['author']}
        Aina: {data['genre']}
        Dhana: {data['themes']}
        Tengeneza maswali ya uchunguzi kuhusu mada, vitabu vinavyofanana, hali ya hewa:"""

4. Matokeo ya Majaribio

4.1 Tathmini Nje ya Mtandao

Tathmini nje ya mtandao ilionyesha maboresho makubwa katika vipimo vya upatikanaji wa vitabu vya sauti. Maswali bandia yaliongeza ufunuo kwa asilimia 35 ikilinganishwa na maswali asili pekee, huku alama za ubora zikizidi 0.85 kwenye mizani ya tathmini ya binadamu.

4.2 Kipimo cha A/B Mtandaoni

Kipimo cha A/B mtandaoni kilichohusisha mamilioni ya watumiaji kulionyesha maboresho makubwa: +0.7% katika mionekano ya vitabu vya sauti, +1.22% katika mibofyo ya vitabu vya sauti, na +1.82% katika ukamilishaji wa maswali ya uchunguzi, na hivyo kuthibitisha ufanisi wa mbinu ya AudioBoost.

5. Matumizi ya Baadaye

Mbinu ya AudioBoost inaweza kupanuliwa kwa hali nyingine za kuanza kwa baridi katika majukwaa ya yaliyomo, ikiwemo vipindi vipya vya redio, aina mpya za muziki, na yaliyomo ya video. Kazi ya baadaye inajumuisha kubinafsisha maswali bandia kulingana na historia ya kusikiliza ya mtumiaji na kuunganisha uelewa wa yaliyomo anuwai.

Uchambuzi wa Mtaalam: Changamoto ya Kuanza kwa Baridi katika Ugunduzi wa Yaliyomo

AudioBoost inawakilisha suluhisho la vitendo kwa moja ya matatizo yanayodumu katika mifumo ya mapendekezo: changamoto ya kuanza kwa baridi. Mbinu hii inavunja pengo kati ya mwingiliano mdogo wa watumiaji na ugunduzi kamili wa yaliyomo kwa kutumia LLM kama wakala bandia wa watumiaji. Mbinu hii inafanana na mbinu kama hizi katika utambuzi wa maono, ambapo tafsiri ya kikoa a la CycleGAN imetumika kutengeneza data ya mafunzo kwa madarasa yasiyowakilishwa vya kutosha [Zhu et al., 2017].

Utekelezaji wa kiufundi unaonyesha uelewa wa kina wa mienendo ya mfumo wa utaftaji. Kwa kulenga wote uundaji wa maswali (kupitia QAC) na utaftaji kwa wakati mmoja, AudioBoost huunda mzunguko mzuri ambapo mapendekezo bora husababisha maswali bora, na hii husababisha utendaji bora wa utaftaji. Mbinu hii ya pande mbili inakumbusha mifumo ya kujifunza kwa nguvu ambapo nafasi za hatua na uchunguzi huboreshwa kwa wakati mmoja [Sutton & Barto, 2018].

Hata hivyo, mchango mkubwa wa karatasi hii huenda ukiwa ni uonyeshaji wake wa matumizi ya LLM katika mifumo ya uzalishaji. Ingawa utafiti mwingi wa LLM unalenga utendaji wa kiwango, AudioBoost inaonyesha jinsi miundo hii inaweza kuongeza viwango halisi vya biashara katika matumizi ya ulimwengu halisi. Ongezeko la +1.82% katika maswali ya uchunguzi inaonyesha kuwa mfumo unawasihi tabia ya watumiaji kuelekea mifumo ya utaftaji inayolenga ugunduzi, na hivyo kushughulikia changamoto ya msingi ya kuanza kwa baridi.

Mbinu hii inaweza kuboreshwa zaidi kwa kujumuisha mambo maalum ya mtumiaji katika uundaji wa maswali, sawa na jinsi mifumo ya kisasa ya mapendekezo inavyobinafsisha yaliyomo kulingana na mapendezi ya mtu binafsi [Ricci et al., 2011]. Zaidi ya hayo, kuunganishwa kwa uchambuzi wa yaliyomo ya sauti kunaweza kutoa mwelekeo mwingine wa uundaji wa maswali, na kuivuka metadata kuelekea uelewa halisi wa yaliyomo.

6. Marejeo

  1. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision.
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
  3. Ricci, F., Rokach, L., & Shapira, B. (2011). Introduction to recommender systems handbook. Springer.
  4. Palumbo, E., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. EARL Workshop@RecSys.

Mtazamo wa Mchambuzi wa Sekta

Kupiga Uhasama: AudioBoost sio tu jaribio lingine la AI—ni mashambulio makali dhidi ya tatizo la kuanza kwa baridi ambalo limekuwa likiwatesa majukwaa ya yaliyomo kwa miongo kadhaa. Spotify inatumia LLM si kama vibadilishanaji maneno, bali kama silaha za kimkakati kubadilisha tabia ya watumiaji na uchumi wa ugunduzi wa yaliyomo.

Mnyororo wa Mantiki: Mnyororo wa sababu na athari umeundwa kwa ustadi: mwingiliano mdogo wa vitabu vya sauti → uundaji wa maswali bandia → maboresho ya mapendekezo ya QAC → mabadiliko ya tabia ya watumiaji → kuongezeka kwa maswali ya uchunguzi → uboreshaji wa upatikanaji wa vitabu vya sauti → maboresho ya viwango vya biashara. Hii huunda kitanzi cha ugunduzi kinachojithibisha chenyewe na hubadilisha kabisa mazingira ya kufichuliwa kwa yaliyomo.

Vipaji na Mapungufu: Uvumbuzi mkuu ni matumizi ya pande mbili katika mifumo ya mapendekezo ya maswali na utaftaji—kampuni nyingi zingesimama kwenye moja tu. Ongezeko la 1.82% katika maswali ya uchunguzi linaonyesha mabadiliko halisi ya tabia, sio tu uboreshaji wa algoriti. Hata hivyo, mbinu hii ina hatari ya kuunda mazingira bandia ya maswali yaliyotengwa na dhamira halisi ya watumiaji, na karatasi haishughulikii uwezekano wa kuharibika kwa ubora wa maswali baada ya muda.

Msukumo wa Hatua: Kwa viongozi wa bidhaa: hii inaonyesha kuwa matumizi ya LLM yanapaswa kulenga kuingiliwa kwa kiwango cha mfumo mzima badala ya suluhisho za sehemu. Kwa wahandisi: somo la msingi ni katika kuleta mbinu za kitaaluma kwenye uzalishaji—angalia jinsi walivyotumia viwango vilivyokua badala ya kukimbia mifumo mpya ya tathmini. Upeo unaofuata utakuwa ubinafsishaji wa maswali haya bandia huku ukidumisha anuwai ya ugunduzi.