AudioBoost: Inganta Gano Littattafan Sauti a cikin Binciken Spotify ta Hanyar Tambayoyin Ruhani da LLM ke Samarwa

Teburin Abubuwan Ciki

1. Gabatarwa & Bayanin Matsala
2. Tsarin AudioBoost
3. Aiwatar da Fasaha & Kimantawa
4. Fahimta ta Asali & Ra'ayi na Mai Bincike
5. Cikakkun Bayanai na Fasaha & Tsarin Lissafi
6. Tsarin Bincike: Nazarin Shari'ar da ba ta da Lamba
7. Aikace-aikacen Gaba & Hanyoyin Bincike
8. Nassoshi

1. Gabatarwa & Bayanin Matsala

Faɗaɗawar Spotify zuwa littattafan sauti ta haifar da matsala ta al'ada ta farawa mai sanyi. Tsarin bincike da shawarwari na dandamali, waɗanda aka inganta shekaru da yawa don mu'amalar kiɗa da podcast, sun sha wahala daga nuna son kai mai tsanani ga sabon nau'in abun ciki. Masu amfani ba su saba yin bincike don littattafan sauti ba, kuma tsarin ba su da isasshen bayanan mu'amala don daidaita matsayinsu da ingantaccen abun ciki. Wannan ya haifar da zagaye mara kyau: ƙarancin bayyana ya haifar da ƙarancin mu'amala, wanda kuma ya ƙarfafa matsayi mara kyau. Kalubalen asali ya kasance biyu: 1) Ƙarfafa masu amfani su buga tambayoyin bincike, waɗanda suka dogara da jigo don littattafan sauti (misali, "labarun ban tsoro na tunani da aka saita a Scandinavia") maimakon takamaiman lakabi, da kuma 2) Ƙarfafa tsarin dawo da bayanai don sarrafa waɗannan faɗaɗaɗɗun tambayoyin bincike, waɗanda ƙaramin bayanan mai amfani na gaske ke wanzu.

2. Tsarin AudioBoost

AudioBoost shine amsar injiniyan Spotify ga wannan kalubalen farawa mai sanyi. Ba kawai gyaran matsayi ba ne amma wani tsarin shiga tsakani ta amfani da bayanan ruhani don farawa da ganowa.

2.1 Hanyar Asali

Tsarin yana amfani da bayanan bayanai masu wadata, tsararrun da ke da alaƙa da kowane littafin sauti (take, marubuci, mawallafi, nau'i, taƙaitaccen bayani, jigogi). Waɗannan bayanan bayanai sune iri don samarwa.

2.2 Samar da Tambayoyin Ruhani tare da LLMs

Ana ƙarfafa Babban Harshen Harshe (LLM) don samar da tambayoyin bincike masu yuwuwa da yawa waɗanda aka tsara akan waɗannan bayanan bayanai. Misali, idan aka ba da bayanan bayanai na littafin sauti na kimiyyar almara game da AI, LLM na iya samar da tambayoyi kamar: "mafi kyawun littattafan almara na AI," "littattafan kimiyyar almara game da sani," "labarun gaba game da fasaha." Wannan tsari yana ƙirƙirar "wutsiyar dogon" na zirga-zirgar bincike wanda zai ci gaba a hankali.

2.3 Dabarar Yin Fayil Biyu

Hazakar AudioBoost tana cikin aikace-aikacenta biyu:

Kammala Tambaya ta Atomatik (QAC): Ana shigar da tambayoyin ruhani a matsayin shawarwari, suna yin tasiri kai tsaye ga halayen mai amfani ta hanyar shuka ra'ayoyin bincike.
Injin Dawo da Bincike: Ana yin fayil ɗaya na tambayoyin ruhani a kan littafin sauti, yana inganta makin sa daidai don tambayoyin mai amfani na gaske iri ɗaya, don haka yana ƙara yuwuwar dawo da shi.

Wannan yana haifar da madauki mai kyau na amsa: shawarwari mafi kyau suna haifar da ƙarin tambayoyin bincike, waɗanda tsarin dawo da bayanai ke ba da sabis mafi kyau.

Sakamako Mai Muhimmanci a Kallo Guda

Bayanan Littattafan Sauti: +0.7%
Danna Littattafan Sauti: +1.22%
Kammala Tambayoyin Bincike: +1.82%

Tushe: Gwajin A/B na Kan Layi, Tsarin AudioBoost

3. Aiwatar da Fasaha & Kimantawa

3.1 Ma'aunin Kimantawa na Kashe Wuta

Kafin gwajin kai tsaye, an tantance inganci da amfanin tambayoyin ruhani a kashe wuta. Ma'auni mai yiwuwa sun haɗa da:

Dangantakar Tambaya: Kimantawar ɗan adam ko na ƙirar ƙira na ko tambayar da aka samar tana da ma'ana don bincike na littafin sautin da ke da alaƙa.
Yaduwar Dawo da Bayanai: Auna ƙaruwar adadin littattafan sauti waɗanda suka bayyana a cikin sakamakon bincike na saman-K don kwandon tambayoyin gwaji bayan yin fayil na bayanan ruhani.
Bambance-bambance & Sabon Abu: Tabbatar da cewa tambayoyin da aka samar sun rufe faffadan manufar bincike (jigo, nau'i, jigo, yanayi) fiye da daidaitawar take/marubuci.

Takardar ta nuna an nuna tambayoyin ruhani suna da "inganci mai girma" kuma sun ƙara yuwuwar dawo da su a cikin wannan yanayin na kashe wuta.

3.2 Sakamakon Gwajin A/B na Kan Layi

Tabatarwa ta ƙarshe ita ce gwajin A/B na kan layi da aka sarrafa. Ƙungiyar jiyya ta fuskanci bincike tare da kunna AudioBoost. Sakamakon yana da ma'ana ta ƙididdiga da ma'ana ta aiki:

+0.7% Bayanan Littattafan Sauti: An ƙara bayyana littattafan sauti a cikin sakamakon bincike.
+1.22% Danna Littattafan Sauti: Masu amfani sun shiga cikin waɗannan sakamakon littattafan sauti da yawa.
+1.82% Kammala Tambayoyin Bincike: Muhimmi, masu amfani sun karɓi tambayoyin bincike da tsarin ya ba da shawarar a ƙimar mafi girma, suna tabbatar da cewa motsin hali ya yi aiki.

Waɗannan ma'auni sun tabbatar da AudioBoost ya yi nasara ya karya zagayen farawa mai sanyi.

3.3 Maɓallan Ma'auni na Ayyuka (KPIs)

Zaɓaɓɓun KPIs sun daidaita da ƙwararrun manufofin kasuwanci da samfuran: Gano (Bayanan), Haɗin kai (Danna), da Canjin Halin Tambaya (Kammala Bincike).

4. Fahimta ta Asali & Ra'ayi na Mai Bincike

Fahimta ta Asali: AudioBoost na Spotify shine babban aikin aikin AI mai amfani. Yana sake fasalin matsalar farawa mai sanyi ba a matsayin rashin bayanai ba, amma a matsayin rashin siginar. Maimakon jira masu amfani su samar da wannan siginar ta hanyar halitta (wanda ba shi da amfani ga sabon kasida), yana amfani da LLMs don kwaikwayi niyyar mai amfani a sikeli, yana inganta kasuwa yadda ya kamata. Wannan shine ci gaba mai zurfi na tace abun ciki na al'ada, wanda ikon samar da AI na fahimta da kwaikwayi ƙayyadaddun harshen ɗan adam ya ƙarfafa.

Kwararar Ma'ana: Ma'anar tsarin tana da kyau kuma tana ƙarfafa kanta. Bayanan Bayanai → Tambayoyin Ruhani → Ingantaccen QAC & Dawo da Bayanai → Haɗin Mai Amfani → Bayanan Gaskiya → Ingantattun Ƙirar Ƙira. Hanya ce ta injiniya zuwa tasirin cibiyar sadarwa waɗanda dandamali kamar Spotify suka dogara da su. Wannan hanya tana tunawa da dabarun a cikin hangen nesa na kwamfuta kamar CycleGAN (Zhu et al., 2017), wanda ke koyon fassara tsakanin yankuna (misali, dawakai zuwa zebras) ba tare da misalan biyu ba. Hakazalika, AudioBoost yana koyon "fassara" tsakanin yankin bayanan littafin sauti da yankin niyyar binciken mai amfani, ba tare da dogaro da bayanan mu'amala na biyu (tambaya, littafin sauti) a farkon ba.

Ƙarfi & Kurakurai: Babban ƙarfinsa shine yuwuwar aiwatarwa da tasiri nan take, kamar yadda gwajin A/B mai kyau ya nuna. Yana da ƙarancin haɗari, shiga tsakani mai yawan riba wanda ke aiki a cikin abubuwan more rayuwa na yanzu (QAC, fihirisar dawo da bayanai). Duk da haka, hanyar tana da kurakurai na asali. Na farko, tana da haɗarin ƙirƙirar "ɗakin dawo da sauti na haɗawa"—idan samar da tambayar LLM ya kasance mai son kai ko iyaka, zai iya taƙaita, maimakon faɗaɗa, yanayin ganowa. Na biyu, yana yuwuwar cire dawo da bayanai daga sha'awar mai amfani na gaske a cikin ɗan gajeren lokaci; ana iya dawo da littafi don tambayar ruhani wanda babu mai amfani na gaske da ya damu da shi. Na uku, kamar yadda bincike daga cibiyoyi kamar Stanford HAI ya lura, dogaro da yawa akan bayanan ruhani na iya haifar da rushewar ƙira ko karkata ba zato ba tsammani idan ba a sarrafa shi da kyau tare da madaukai na amsa bayanan gaskiya ba.

Fahimta Mai Aiki: Ga shugabannin samfura, abin da za a ɗauka a bayyane yake: Samar da AI shine makamin ku na ƙarshe na farawa mai sanyi. Zanen yana iya maimaitawa a ko'ina cikin yankuna—sabbin nau'ikan samfura, sabbin kasuwanni na yanki, sabbin nau'ikan abun ciki. Maɓalli shine a mai da hankali kan inganci da bambance-bambancen tsarin samarwa. Saka hannun jari a cikin injiniyan gaggawa, tsarawa, da tabbatar da fitar da ruhani a matsayin aikin injiniya na farko. Bugu da ƙari, shirya don tsufa na tsarin; manufar AudioBoost ya kamata ta zama don hanzarta tattara bayanan gaskiya domin a iya kawar da rukunin ruhani a hankali ko rage nauyinsa, canzawa zuwa cikakkiyar tsarin ganowa na halitta. Wannan ba takalmin gyaran kafa na dindindin ba ne, amma mai haɓaka dabarun.

5. Cikakkun Bayanai na Fasaha & Tsarin Lissafi

Duk da yake takardar ba ta shiga cikin ƙa'idodi masu rikitarwa ba, ana iya tunanin ƙarfafa dawo da bayanai na asali. Bari $R(q, d)$ ya zama makin dacewa na takarda (littafin sauti) $d$ don tambaya $q$ a cikin ƙirar asali. A cikin farawa mai sanyi, don littafin sauti $d_a$ da tambayar bincike $q_e$, $R(q_e, d_a)$ yana da ƙasa saboda ƙarancin bayanai.

AudioBoost yana samar da saitin tambayoyin ruhani $Q_s = \{q_{s1}, q_{s2}, ..., q_{sn}\}$ don $d_a$. Ana ƙarfafa tsarin dawo da bayanai ta yadda sabon makin dacewa $R'(q, d)$ ya yi la'akari da daidaitawa da waɗannan tambayoyin ruhani. Ra'ayi mai sauƙi zai iya zama:

$R'(q_e, d_a) = R(q_e, d_a) + \lambda \cdot \sum_{q_s \in Q_s} \text{sim}(q_e, q_s) \cdot I(d_a, q_s)$

Inda:

$\text{sim}(q_e, q_s)$ shine makin kamanceceniya na ma'ana tsakanin tambayar binciken mai amfani da tambayar ruhani (misali, daga ƙirar saka).
$I(d_a, q_s)$ alama ce ko ƙarfin haɗin gwiwa tsakanin $d_a$ da $q_s$ (wanda samarwar LLM ya kafa).
$\lambda$ siga ce ta haɗawa da ke sarrafa tasirin siginar ruhani, wanda ya kamata ya ragu yayin da bayanan gaskiya suka taru.

Wannan tsarin yana nuna yadda tambayoyin ruhani ke aiki a matsayin gada, suna haɓaka makin $d_a$ don $q_e$ ta hanyar kamanceceniya na ma'ana ga takwarorinsa na ruhani da aka riga aka samar.

6. Tsarin Bincike: Nazarin Shari'ar da ba ta da Lamba

Yanayi: Sabon dandamali na yawo "StreamFlow" ya ƙaddamar da nau'in musamman na wasan barkwanci. Yana fuskantar irin wannan matsalar farawa mai sanyi kamar Spotify tare da littattafan sauti.

Aiwatar da Tsarin AudioBoost:

Gano Bayanan Bayanai: Ga kowane wasan barkwanci na musamman: Sunan ɗan wasan barkwanci, taken musamman, alamun (misali, lura, siyasa, ban mamaki), mahimman kalmomin rubutu, shekarar rikodi, yanayin masu sauraro (hayaniya, kusa).
Ayyana Gudunmawar Samar da Tambaya: Injiniyan LLM gaggawa kamar: "Idan aka ba da wasan barkwanci na musamman na [Dan wasan barkwanci] mai taken [Take] tare da alamun [Alamun], samar da tambayoyin bincike 10 daban-daban da mai amfani zai iya buga don nemo abun ciki na barkwanci makamancin haka. Haɗa da tambayoyi game da salo, jigo, yanayi, da masu wasan barkwanci makamancin haka."
Samar & Fayil: Ga wani musamman mai alamar "satire na siyasa," "2020s," LLM yana samar da: "ban dariya na sharhin siyasa," "mafi kyawun satire akan abubuwan da suka faru na yanzu," "masu wasan barkwanci kamar [Dan wasan barkwanci]," "wasan barkwanci game da al'ummar zamani." Ana yin fayil ɗin waɗannan.
Aikace-aikace Biyu: Waɗannan tambayoyin suna bayyana a matsayin shawarwari lokacin da mai amfani ya fara buga "barkwanci game da...". Suna kuma taimakawa dawo da wannan musamman lokacin da mai amfani ya bincika "shirye-shiryen labarai na satire."
Auna & Maimaita: Bi KPIs: Bayanan wasan barkwanci na musamman, farawa na wasa, da amfani da shawarwarin tambayoyin da aka samar. Yi amfani da waɗannan bayanan gaskiya don daidaita gudunmawar LLM da kuma rage sigar $\lambda$ a hankali don tsofaffin musamman yayin da suke tarawa.

Wannan nazarin shari'ar yana nuna yuwuwar ɗaukar ainihin ra'ayin fiye da littattafan sauti.

7. Aikace-aikacen Gaba & Hanyoyin Bincike

Tsarin AudioBoost yana buɗe hanyoyi masu ban sha'awa da yawa na gaba:

Dawo da Bayanai na Tsaka-tsaki & Nau'i-nau'i: Faɗaɗa fiye da tambayoyin rubutu. Za a iya samar da ɗan gajeren sauti na ruhani (misali, "kunna wani abu mai kama da wannan") ko allunan yanayi na gani daga bayanan bayanai don farawa da binciken murya ko na gani?
Samar da Ruhani Na Musamman: Matsawa daga tambayoyin ruhani guda ɗaya zuwa samar da tambayoyin da aka tsara akan bayanan martabar mai amfani ɗaya. Misali, ga mai amfani wanda ke sauraron podcast na tarihi, samar da tambayoyin littattafan sauti kamar "tarihin rayuwa tare da bincike mai zurfi" maimakon na gama gari.
Haɗawa Mai Ƙarfi & Daidaitawa: Maimakon samarwa na tsaye, ƙirƙirar tsarin inda ƙirar samar da tambayar ruhani ke ci gaba da daidaitawa dangane da waɗanne tambayoyin ruhani da gaske ke haifar da haɗin kai na mai amfani, ƙirƙirar madauki mai inganta kansa.
Rage Son Kai na Ruhani: Babban hanyar bincike shine haɓaka hanyoyin tantancewa da tabbatar da bambance-bambance da adalcin tambayoyin da LLM ya samar don hana haɓaka son kai na al'umma ko kasida a cikin tsarin ganowa. Dabarun daga binciken adalcin algorithm zai zama mahimmanci a nan.
Aikace-aikace a cikin Binciken Kamfani: Wannan hanyar ta shafi kai tsaye ga injunan bincike na cikin kamfani don sabbin ma'ajiyar takardu, tushen ilimi, ko kasidun samfura, inda halin binciken mai amfani na farko ba a sani ba.

Iyakar yana cikin sanya tsarin samar da ruhani ya zama mai ƙarfi, na musamman, da lissafi.

8. Nassoshi

Azad, H. K., & Deepak, A. (2019). Query expansion techniques for information retrieval: A survey. Information Processing & Management, 56(5), 1698-1735.
Jiang, J. Y., et al. (2021). Understanding and predicting user search mindset. ACM Transactions on Information Systems.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). [Tushen Waje - CycleGAN]
Cibiyar Stanford don Hanyoyin Wucin Gadi na Dan Adam (HAI). (2023). A kan Kasada da Kalubalen Bayanan Ruhani. [Tushen Waje - Cibiyar Bincike]
Palumbo, E., Penha, G., Liu, A., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. In Proceedings of the EARL Workshop@RecSys.
Bennett, P. N., et al. (2012). Modeling the impact of short- and long-term behavior on search personalization. In Proceedings of the 35th international ACM SIGIR conference.