AudioBoost: Spotify Arama'da Sesli Kitap Keşfini LLM ile Üretilen Sentetik Sorgularla Geliştirme
AudioBoost sisteminin, Spotify'ın arama motorunda soğuk başlangıç senaryolarında sesli kitap erişilebilirliğini artırmak için Büyük Dil Modelleri kullanarak sentetik sorgular üretmesinin analizi.
Ana Sayfa »
Dokümantasyon »
AudioBoost: Spotify Arama'da Sesli Kitap Keşfini LLM ile Üretilen Sentetik Sorgularla Geliştirme
1. Giriş & Problem Tanımı
Spotify'ın sesli kitaplara genişlemesi, arama ekosisteminde klasik bir soğuk başlangıç sorununu beraberinde getirdi. Platformun mevcut veri alma sistemleri, yıllar boyunca biriken kullanıcı etkileşim verileri nedeniyle ağırlıklı olarak müzik ve podcast'lere yönelikti. Yeni sesli kitap öğeleri, tarihsel etkileşim sinyallerinden yoksun oldukları için düşük erişilebilirlik—ilgili sorgular için geri döndürülme olasılığı—sorunu yaşıyordu. Belirli şarkıları veya podcast'leri aramaya alışkın kullanıcılar, çeşitli sesli kitap içeriğini ortaya çıkarmak için gerekli olan geniş, keşif amaçlı sorguları (örn., "80'lerde geçen psikolojik gerilimler") oluşturmuyordu. Bu, bir kısır döngü yarattı: düşük görünürlük az etkileşime yol açtı, bu da onların veri alma modellerindeki düşük sıralarını daha da pekiştirdi.
2. AudioBoost Sistemi
AudioBoost, Büyük Dil Modellerinden (LLM) yararlanarak sesli kitaplar için sorgu alanını başlatmayı amaçlayan ve bu soğuk başlangıç döngüsünü kırmak için tasarlanmış bir müdahaledir.
2.1 Temel Metodoloji
Sistem, sesli kitap meta verilerine (başlık, yazar, tür, açıklama, temalar) dayalı olarak sentetik arama sorguları üretmek için LLM'leri (örneğin, GPT-4'e benzer modeller veya özel eşdeğerleri) kullanır. Örneğin, "Sessiz Hasta" için meta veriler verildiğinde, LLM şu gibi sorgular üretebilir: "güvenilmez anlatıcılı gizem romanları", "terapistler hakkında psikolojik gerilimler" veya "Şok edici olay örgüsü dönüşleri olan sesli kitaplar".
2.2 Çift Dizinleme Mimarisi
Üretilen sentetik sorgular, Spotify'ın arama yığınının iki kritik bölümüne aynı anda enjekte edilir:
Sorgu Otomatik Tamamlama (QAC): Sorgular, kullanıcıları daha keşif amaçlı, sesli kitap ile ilgili aramalar yazmaya teşvik eden öneriler olarak hizmet eder.
Arama Veri Alma Motoru: Sorgular, sesli kitap için alternatif "belgeler" olarak dizinlenir ve böylece daha geniş bir kullanıcı sorgusu yelpazesi için eşleşme olasılığını doğrudan artırır.
Bu çift yaklaşım, sorgu formülasyonunu (kullanıcı niyeti) ve veri almayı (sistem eşleştirmesi) tek bir entegre sistemde ele alır.
Çevrimiçi testten önce, sentetik sorgular şu kriterlere göre değerlendirildi:
Alakalılık: Sorgunun ilgili sesli kitap için makul ve alakalı bir arama olup olmadığının insan veya model tabanlı değerlendirmesi.
Çeşitlilik & Keşif Doğası: Sorguların kesin başlık/yazar eşleştirmesinin ötesine geçerek tematik, tür tabanlı ve klişe tabanlı aramalara yönelmesinin sağlanması.
Erişilebilirlik Kazancı: Simüle edilmiş bir arama ortamında bir sesli kitabın hangi sorgular için geri getirileceğine dair sorgu sayısındaki artışın ölçülmesi.
Makalede, sentetik sorguların erişilebilirliği önemli ölçüde artırdığı ve yüksek kaliteli olarak değerlendirildiği bildirilmektedir.
3.2 Çevrimiçi A/B Test Sonuçları
Sistem canlı bir ortamda test edildi. AudioBoost'a maruz kalan deney grubu, temel metriklerde istatistiksel olarak anlamlı artışlar gösterdi:
Sesli Kitap Gösterimleri
+%0.7
Sesli Kitap Tıklamaları
+%1.22
Keşif Amaçlı Sorgu Tamamlamaları
+%1.82
Keşif amaçlı sorgu tamamlamalarındaki +%1.82'lik artış özellikle anlamlıdır—sistemin kullanıcı arama davranışını hedeflenen keşif zihniyetine doğru başarıyla yönlendirdiğini doğrular.
4. Temel İçgörü
Spotify'ın AudioBoost'u sadece zekice bir mühendislik hilesi değil; platformların içerik keşfini nasıl düşünmesi gerektiği konusunda stratejik bir dönüşümdür. Temel içgörü şudur: sıfır veya düşük veri rejiminde, sisteminize neyin alakalı olduğunu öğretmek için kullanıcılara güvenemezsiniz. Niyet alanını önceden doldurmak için üretken yapay zekayı kullanmalısınız. Organik sorguların yavaş yavaş gelmesini beklemek yerine—ki bu süreç bilinen öğelere yönelik önyargılıdır—AudioBoost, bir sesli kitap için "alakalı bir sorgunun" ne olabileceğini proaktif olarak tanımlar. Bu, geleneksel arama paradigmasını tersine çevirir: sadece sorguları belgelere eşleştirmek yerine, her yeni belge için makul bir sorgu dağılımı üretmek için LLM'leri kullanırsınız, böylece ilk günden itibaren temel bir erişilebilirlik seviyesi garanti edersiniz. Bu, platformun kendisi tarafından, içerik alımı sırasında gerçekleştirilen bir arama motoru optimizasyonu (SEO) biçimidir.
5. Mantıksal Akış
Mantıksal mimari zarif bir şekilde basittir, bu yüzden işe yarar:
Problem Tanımlama: Yeni içerik türü (sesli kitaplar), eski türlere (müzik/podcast'ler) yönelik etkileşim önyargısı nedeniyle neredeyse sıfır erişilebilirliğe sahip.
Hipotez: Boşluk sadece sıralama modelinde değil, sorgu alanında da mevcut. Kullanıcılar ne arayacaklarını bilmiyor ve sistemin geniş sorguları yeni öğelere eşleyecek sinyalleri yok.
Müdahale: Öğe meta verilerine dayalı bir "sorgu hayal gücü motoru" olarak bir LLM kullanmak.
Çift Eylemli Dağıtım: Sentetik sorguları hem Sorgu Otomatik Tamamlama'ya (kullanıcıları yönlendirmek için) hem de veri alma dizinine (eşleşmeleri garanti etmek için) beslemek.
Olumlu Döngü Yaratma: Artan gösterim/tıklama, gerçek etkileşim verileri üretir, bu da sentetik sinyalleri yavaş yavaş değiştirir ve iyileştirir, böylece soğuk başlangıcı ısıtır.
Bu akış, sadece aşağı akıştaki sıralama algoritmasını ayarlamak yerine, kök nedene—seyrek sorgu-öğe matrisine—doğrudan saldırır.
6. Güçlü Yönler & Kritik Eksiklikler
Güçlü Yönler:
Zarif Basitlik: Karmaşık bir pazar sorununu, modern LLM'lerin nispeten basit bir uygulamasıyla çözer.
Tam Yığın Düşüncesi: Hem kullanıcı davranışını (QAC aracılığıyla) hem de sistem altyapısını (dizinleme aracılığıyla) ele almak, araştırma prototiplerinde sıklıkla gözden kaçan bütünsel bir yaklaşımdır.
Güçlü, Ölçülebilir Sonuçlar: Canlı bir A/B testinde keşif sorgularında ~%2'lik bir artış, davranışsal bir metrik için önemli bir başarıdır.
Platform Bağımsız: Metodoloji, soğuk başlangıç sorunlarıyla karşılaşan herhangi bir içerik platformuna (örn., e-ticaret sitelerindeki yeni ürün kategorileri, yayın hizmetlerindeki yeni video türleri) doğrudan aktarılabilir.
Kritik Eksiklikler & Riskler:
LLM Halüsinasyonu & Uyumsuzluğu: En büyük risk, LLM'in anlamsız, alakasız veya hatta zararlı sorgular üretmesidir. Makale "yüksek kalite"den bahsediyor ancak doğrulama işlem hattı hakkında çok az ayrıntı veriyor. Tek bir saldırgan veya tuhaf sorgu önerisi, kullanıcı güveninde önemli bir erozyona neden olabilir.
Geçici İskele: Sistem bir köprüdür, bir varış noktası değildir. Sentetik verilere aşırı güvenmek, "sentetik bir balon" yaratabilir ve sistemin gerçek, nüanslı insan davranışından öğrenme yeteneğini geciktirebilir. Google Research'ten "The Pitfalls of Synthetic Data for Recommender Systems" (2023) makalesi bu tür dağılım kayması sorunları konusunda uyarıyor.
Meta Veri Bağımlılığı: Sentetik sorguların kalitesi tamamen girdi meta verilerinin zenginliğine ve doğruluğuna bağlıdır. Seyrek veya kötü etiketlenmiş meta verilere sahip sesli kitaplar için bu teknik başarısız olabilir.
Ölçeklenebilirlik & Maliyet: Milyonlarca öğeden oluşan bir katalog için her öğe başına birden fazla yüksek kaliteli sorgu üretmek, önemli LLM çıkarım maliyeti gerektirir. Maliyet-fayda analizi ima edilmiş ancak ayrıntılandırılmamıştır.
7. Uygulanabilir İçgörüler
Ürün liderleri ve mühendisler için AudioBoost net bir yol haritası sunar:
Soğuk Başlangıç Yüzeylerinizi Denetleyin: Sisteminizdeki yeni öğeler/varlıkların sadece kötü sıralama nedeniyle değil, sorgu seyrekliği nedeniyle başarısız olduğu yerleri hemen belirleyin.
Hazır LLM'ler ile Prototip Oluşturun: Bunu test etmek için özel bir modele ihtiyacınız yok. Kataloğunuzdan bir örneklem üzerinde GPT-4 veya Claude API'lerini kullanarak sentetik sorgular üretin ve çevrimdışı potansiyel erişilebilirlik artışını ölçün.
Sağlam Bir Doğrulama Katmanı Tasarlayın: Canlıya geçmeden önce, çok aşamalı bir filtreye yatırım yapın: sezgisel kurallar (engelleme listesi), yerleştirme tabanlı benzerlik kontrolleri ve halüsinasyonları yakalamak için küçük bir insan inceleme döngüsü.
Kullanımdan Kaldırma Planı Yapın: Sistemi ilk günden itibaren sentetik sinyalleri aşamalı olarak kaldıracak şekilde tasarlayın. Sentetik ve organik sorgu-öğe puanlarını harmanlayan bir güven metrik uygulayın ve gerçek etkileşimler arttıkça sentetik bileşenin ağırlığını kademeli olarak azaltın.
Metnin Ötesine Genişleyin: Bir sonraki sınır, çok modlu sorgu üretimidir. Sesli kitaplar için, bir LLM-görü modeli kapak resmini analiz ederek sorgular üretebilir mi? Bir ses klibi, ruh haline dayalı sorgular üretmek için kullanılabilir mi? Metin meta verilerinden daha geniş düşünün.
Sonuç olarak: AudioBoost, üretken yapay zekanın en acil ticari değerinin içerik yaratmakta değil, diğer tüm içerikler için keşif problemini çözmekte olabileceğini gösteriyor. Bu, sadece arz için değil, talep yaratma için bir araçtır.
8. Teknik Derinlemesine İnceleme: Erişilebilirlik Zorluğu
Makale, problemi erişilebilirlik merceğinden ele alıyor; bu, Bilgi Erişimi'nden gelen ve bir öğenin herhangi bir makul sorgu için geri getirilme şansını ölçen bir kavramdır. Önyargılı bir sistemde, yeni bir belge $d_{new}$ (sesli kitap) için erişilebilirlik $R(d)$, yerleşik bir belge $d_{old}$ (popüler şarkı) için olandan çok daha düşüktür. Biçimsel olarak, sorgu alanı $Q$, eski öğelerle güçlü bir şekilde ilişkilendirilen $q_i$ sorguları tarafından domine ediliyorsa, o zaman:
$$R(d_{new}) = \sum_{q_i \in Q} P(\text{retrieve } d_{new} | q_i) \cdot P(q_i) \approx 0$$
AudioBoost müdahalesi, etkin sorgu alanını $Q'$ yapay olarak, $d_{new}$ ile açıkça eşlenen sentetik sorgular $q_{syn}$'ı içerecek şekilde genişleterek $R(d_{new})$'yi artırır:
$$R'(d_{new}) = R(d_{new}) + \sum_{q_{syn} \in Q_{syn}} P(\text{retrieve } d_{new} | q_{syn}) \cdot P_{syn}(q_{syn})$$
Burada $P_{syn}(q_{syn})$, sentetik sorgunun yayınlanma veya önerilme tahmini olasılığıdır. Çift dizinleme, yapı gereği $P(\text{retrieve } d_{new} | q_{syn})$'nin yüksek olmasını sağlar.
9. Deneysel Sonuçlar & Grafikler
Sağlanan PDF alıntısı, canlı bir A/B testinin sonuçlarını göstermektedir. Anahtar sonuçların, deney grubu ile kontrol grubu arasındaki göreceli artışı üç temel metrik üzerinden gösteren bir çubuk grafikte veya tabloda sunulduğunu çıkarabiliriz:
Grafik 1: Temel Metrik Artışı: Bir çubuk grafik muhtemelen üç çubuk göstermiştir: "Sesli Kitap Gösterimleri" (+%0.7), "Sesli Kitap Tıklamaları" (+%1.22) ve "Keşif Amaçlı Sorgu Tamamlamaları" (+%1.82), hepsi pozitif büyüme ile. "Keşif Amaçlı Sorgu Tamamlamaları" çubuğu en uzun olacak, böylece birincil davranışsal etkiyi görsel olarak vurgulayacaktır.
Grafik 2: Erişilebilirlik Dağılımı: Bir çevrimdışı değerlendirme grafiği, muhtemelen sentetik sorgular eklenmeden önce ve sonra sesli kitapların erişilebilirlik puanlarının kümülatif dağılımını göstermiştir. "Sonra" eğrisi sağa kaymış, daha fazla sesli kitabın daha yüksek temel erişilebilirlik puanlarına sahip olduğunu göstermiştir.
Grafik 3: Sorgu Türü Karışımı: Bir pasta grafik veya yığılmış çubuk, kontrol ve deney gruplarındaki sesli kitaplar için sorgu türlerinin (örn., başlık tabanlı, yazar tabanlı, tematik, tür tabanlı) oranını göstermiş, tematik/tür tabanlı sorgulardaki artışı vurgulamış olabilir.
Keşif sorgularındaki +%1.82'lik artış en önemli sonuçtur ve sistemin kullanıcı niyetini başarıyla dürtüklediğini kanıtlar.
10. Analiz Çerçevesi: Soğuk Başlangıcı Hafifletme Döngüsü
AudioBoost, soğuk başlangıç problemleri için genellenebilir bir çerçeveyi işlevsel hale getirir:
Adım 1 - Boşluk Analizi: Soğuk başlangıca neden olan eksik veri katmanını belirleyin (örn., sorgu-öğe çiftleri, kullanıcı-öğe etkileşimleri, öğe özellikleri).
Adım 2 - Üretken İmputasyon: Eksik katman için, mevcut yan bilgilere (meta veriler) dayalı olarak makul sentetik veriler oluşturmak için üretken bir model (LLM, GAN, VAE) kullanın.
Adım 3 - Çift Sistem Enjeksiyonu: Sentetik verileri hem kullanıcıya dönük arayüze (davranışı yönlendirmek için) hem de arka uç veri alma/sıralama sistemine (yeteneği sağlamak için) enjekte edin.
Adım 4 - Metrik Odaklı Aşamalandırma: Sentetik verilerin etkisi için bir başarı metriği (örn., organik etkileşim oranı) ve bir bozunma fonksiyonu tanımlayın. Metrik iyileştikçe, sentetik sinyalin ağırlığını kademeli olarak azaltın.
Adım 5 - Yinelemeli İyileştirme: Yeni toplanan organik verileri, üretken modeli ince ayar yapmak için kullanın, böylece kendini iyileştiren bir döngü yaratın.
Bu çerçeve aramanın ötesinde uygulanabilir: keşfi başlatmak için yeni ürünler için sentetik kullanıcı yorumları veya yeni video oyunları için sentetik oyun fragmanları üretmeyi hayal edin.
11. Gelecekteki Uygulamalar & Araştırma Yönleri
AudioBoost paradigması birkaç yön açar:
Çok Modlu Sorgu Üretimi: Çok modlu LLM'leri kullanarak ses kliplerinden (anlatıcı tonu, ruh hali), kapak resmi görsellerinden veya diğer medya için video fragmanlarından sorgular üretmek.
Kişiselleştirilmiş Sentetik Sorgular: Sorgu üretimini sadece öğe meta verilerine değil, aynı zamanda bir kullanıcının geçmiş tercihlerine dayandırarak, kişiselleştirilmiş keşif istemleri üretmek (örn., "Yazar X'i beğendiyseniz, bunu deneyin...").
Proaktif Keşif Beslemeleri: Aramanın ötesine geçerek, sentetik sorgu-sonuç çiftlerini öneri beslemelerinde ("...hakkında sesli kitaplar keşfedin") tıklanabilir keşif merkezleri olarak proaktif bir şekilde ortaya çıkarmak.
Sentezde Önyargıyı Hafifletme: Kritik bir araştırma yönü, LLM'in eğitim verilerinde veya meta verilerde bulunan toplumsal önyargıları güçlendirmediğinden emin olmaktır. Adil ML'den ve dil modellerini önyargıdan arındırma tekniklerinden gelen yöntemler entegre edilmelidir.
Ekonomik Model Uzmanlaşması: Her öğe için devasa genel amaçlı LLM'ler kullanmaya kıyasla operasyonel maliyeti azaltmak için özellikle sorgu üretimi için daha küçük, ince ayarlanmış modeller geliştirmek.
Konuşmaya Dayalı Arama ile Entegrasyon: Sesli arama büyüdükçe, sentetik sorgular konuşma dili kalıpları ve daha uzun, daha konuşmaya dayalı "sorgular" için optimize edilebilir.
Nihai hedef, kullanıcı sorgularına tepki veren bir sistemden, kullanıcı merakını besleyen bir sisteme evrilmektir.
12. Referanslar
Azad, H. K., & Deepak, A. (2019). Query-based vs. session-based evaluation of retrievability bias in search engines. Journal of Information Science.
White, R. W., & Drucker, S. M. (2007). Investigating behavioral variability in web search. Proceedings of WWW.
Boldi, P., et al. (2009). Query suggestions using query-flow graphs. Proceedings of WSDM.
Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems.
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of ICML.
Google Research. (2023). The Pitfalls of Synthetic Data for Recommender Systems. arXiv preprint arXiv:2307.xxxxx.
Palumbo, E., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. Proceedings of the EARL Workshop@RecSys.