فهرست مطالب
1. مقدمه
معرفی کتابهای صوتی توسط اسپاتیفای یک مشکل شروع سرد قابل توجه ایجاد کرد که در آن محتوای جدید در مقایسه با محتوای موسیقی و پادکست تثبیتشده، از قابلیت بازیابی پایینی رنج میبرد. سیستم AudioBoost این چالش را با بهرهگیری از مدلهای زبانی بزرگ برای تولید پرسوگوهای مصنوعی که قابلیتهای فرمولهسازی پرسوجو و بازیابی را تقویت میکنند، حل میکند.
معیارهای کلیدی عملکرد
- نمایش کتابهای صوتی: +0.7%
- کلیکهای کتاب صوتی: +1.22%
- تکمیل پرسوگوهای اکتشافی: +1.82%
2. روششناسی
2.1 تولید پرسوگوی مصنوعی
AudioBoost از مدلهای زبانی بزرگ شرطشده بر روی فرادادههای کتاب صوتی برای تولید پرسوگوهای اکتشافی متنوع که موضوعات، ژانرها، کلیشههای داستانی و دههها را پوشش میدهند، استفاده میکند. فرآیند تولید از یک رویکرد مهندسی پرامپت ساختاریافته برای اطمینان از کیفیت و ارتباط پرسوجو پیروی میکند.
2.2 یکپارچهسازی تکمیل خودکار پرسوجو
پرسوگوهای مصنوعی در سیستم تکمیل خودکار پرسوجوی اسپاتیفای یکپارچه میشوند تا کاربران را ترغیب کنند پرسوگوهای اکتشافی بیشتری تایپ کنند و عدم تطابق واژگان بین رفتار جستجوی کاربر و محتوای کتاب صوتی را حل کنند.
2.3 ارتقای سیستم بازیابی
پرسوگوهای تولیدشده در موتور جستجوی بازیابی اسپاتیفای نمایهگذاری میشوند و مسیرهای اضافی برای کشف کتابهای صوتی از طریق جستجوهای گستردهتر و مبتنی بر موضوع به جای فقط تطابق دقیق عنوان ایجاد میکنند.
3. پیادهسازی فنی
3.1 چارچوب ریاضی
بهبود قابلیت بازیابی را میتوان با استفاده از چارچوب احتمالی مدل کرد: $P(r|q,d) = \frac{\exp(\text{sim}(q,d))}{\sum_{d' \in D} \exp(\text{sim}(q,d'))}$ که در آن $q$ نشاندهنده پرسوگوها، $d$ نشاندهنده اسناد و $\text{sim}$ تابع شباهت است. هدف تولید پرسوگوی مصنوعی بیشینهسازی $\sum_{q \in Q_{\text{syn}}} P(r|q,d_{\text{audiobook}})$ است.
3.2 پیادهسازی کد
class AudioBoostQueryGenerator:
def __init__(self, llm_model, metadata_fields):
self.llm = llm_model
self.fields = metadata_fields
def generate_queries(self, audiobook_data, num_queries=10):
prompt = self._construct_prompt(audiobook_data)
synthetic_queries = self.llm.generate(
prompt=prompt,
max_tokens=50,
num_return_sequences=num_queries
)
return self._filter_queries(synthetic_queries)
def _construct_prompt(self, data):
return f"""Generate diverse search queries for audiobook:
Title: {data['title']}
Author: {data['author']}
Genre: {data['genre']}
Themes: {data['themes']}
Generate exploratory queries about topics, similar books, mood:"""4. نتایج آزمایشی
4.1 ارزیابی آفلاین
ارزیابی آفلاین بهبودهای قابل توجهی در معیارهای قابلیت بازیابی کتاب صوتی نشان داد. پرسوگوهای مصنوعی پوشش را در مقایسه با پرسوگوهای آلی به تنهایی 35% افزایش دادند، با نمرات کیفیت که در مقیاسهای ارزیابی انسانی از 0.85 فراتر رفت.
4.2 آزمایش A/B آنلاین
آزمایش A/B آنلاین که میلیونها کاربر را شامل میشد، بهبودهای آماری معنیداری نشان داد: +0.7% در نمایش کتابهای صوتی، +1.22% در کلیکهای کتاب صوتی و +1.82% در تکمیل پرسوگوهای اکتشافی که اثربخشی رویکرد AudioBoost را تأیید میکند.
5. کاربردهای آینده
روششناسی AudioBoost را میتوان به سناریوهای شروع سرد دیگر در پلتفرمهای محتوا، از جمله نمایشهای پادکست جدید، ژانرهای موسیقی در حال ظهور و محتوای ویدیویی گسترش داد. کار آینده شامل شخصیسازی پرسوگوهای مصنوعی بر اساس تاریخچه شنیداری کاربر و یکپارچهسازی درک محتوای چندوجهی است.
تحلیل تخصصی: معمای شروع سرد در کشف محتوا
AudioBoost نشاندهنده یک راهحل عملگرا برای یکی از مداومترین مشکلات در سیستمهای توصیهگر است: معضل شروع سرد. این رویکرد هوشمندانه شکاف بین تعاملات محدود کاربر و کشف محتوای جامع را با بهرهگیری از مدلهای زبانی بزرگ به عنوان پراکسیهای مصنوعی کاربر پل میزند. این روششناسی با تکنیکهای مشابه در بینایی کامپیوتر همسو است، جایی که ترجمه دامنه سبک CycleGAN برای تولید داده آموزش برای کلاسهای کمنمایش استفاده شده است [Zhu et al., 2017].
پیادهسازی فنی درک پیچیدهای از پویاییهای اکوسیستم جستجو را نشان میدهد. با هدفگیری همزمان فرمولهسازی پرسوجو (از طریق QAC) و بازیابی، AudioBoost یک چرخه فضیلت ایجاد میکند که در آن پیشنهادهای بهبودیافته منجر به پرسوگوهای بهتر میشوند که به نوبه خود عملکرد بازیابی را بهبود میبخشند. این رویکرد دوگانه یادآور سیستمهای یادگیری تقویتی است که در آن فضاهای عمل و مشاهده به طور همزمان بهینه میشوند [Sutton & Barto, 2018].
با این حال، مهمترین سهم مقاله ممکن است نمایش استقرار عملی مدلهای زبانی بزرگ در سیستمهای تولیدی باشد. در حالی که بسیاری از تحقیقات مدلهای زبانی بزرگ بر عملکرد معیار متمرکز است، AudioBoost نشان میدهد که این مدلها چگونه میتوانند معیارهای تجاری ملموس را در کاربردهای دنیای واقعی هدایت کنند. افزایش 1.82% در پرسوگوهای اکتشافی نشان میدهد که سیستم با موفقیت رفتار کاربر را به سمت الگوهای جستجوی بیشتر مبتنی بر کشف سوق میدهد و چالش اساسی شروع سرد را حل میکند.
این رویکرد را میتوان با گنجاندن عوامل خاص کاربر در تولید پرسوجو بیشتر تقویت کرد، مشابه نحوهای که سیستمهای توصیهگر مدرن محتوا را بر اساس ترجیحات فردی شخصیسازی میکنند [Ricci et al., 2011]. علاوه بر این، یکپارچهسازی تحلیل محتوای صوتی میتواند بعد دیگری برای تولید پرسوجو فراهم کند و فراتر از فراداده به درک محتوای واقعی حرکت کند.
6. مراجع
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision.
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
- Ricci, F., Rokach, L., & Shapira, B. (2011). Introduction to recommender systems handbook. Springer.
- Palumbo, E., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. EARL Workshop@RecSys.
دیدگاه تحلیلگر صنعت
دقیق و کاربردی: AudioBoost فقط یک آزمایش هوش مصنوعی دیگر نیست—یک حمله دقیق و حسابشده علیه مشکل شروع سرد است که برای دههها پلتفرمهای محتوا را آزار داده است. اسپاتیفای از مدلهای زبانی بزرگ نه به عنوان چتبات، بلکه به عنوان سلاحهای استراتژیک برای تغییر شکل رفتار کاربر و اقتصاد کشف محتوا استفاده میکند.
زنجیره علّی: زنجیره علّی به طور درخشان مهندسی شده است: تعاملات محدود کتاب صوتی → تولید پرسوگوی مصنوعی → بهبود پیشنهادهای QAC → تغییر رفتار کاربر → افزایش پرسوگوهای اکتشافی → افزایش قابلیت بازیابی کتاب صوتی → بهبود معیارهای تجاری. این یک حلقه کشف خودتقویتکننده ایجاد میکند که اساساً چشمانداز نمایش محتوا را تغییر میدهد.
نقاط قوت و ضعف: نوآوری برجسته استقرار دوگانه در هر دو سیستم پیشنهاد پرسوجو و بازیابی است—اکثر شرکتها فقط در یکی از آنها متوقف میشوند. افزایش 1.82% در پرسوگوهای اکتشافی نشاندهنده تغییر رفتار واقعی است، نه فقط بهینهسازی الگوریتمی. با این حال، این رویکرد خطر ایجاد یک اکوسیستم پرسوگوی مصنوعی جدا شده از قصد واقعی کاربر را دارد و مقاله به تخریب احتمالی کیفیت پرسوجو در طول زمان نمیپردازد.
بینش عملی: برای رهبران محصول: این نشان میدهد که کاربردهای مدل زبانی بزرگ باید بر مداخلات در سطح اکوسیستم به جای راهحلهای نقطهای متمرکز شوند. برای مهندسان: درس واقعی در تولیدی کردن تکنیکهای آکادمیک است—توجه کنید که چگونه از معیارهای تثبیتشده به جای دنبال کردن چارچوبهای ارزیابی نوآورانه استفاده کردند. مرز بعدی شخصیسازی این پرسوگوهای مصنوعی در حین حفظ تنوع کشف خواهد بود.