انتخاب زبان

AudioBoost: بهبود کشف کتاب‌های صوتی در جستجوی اسپاتیفای از طریق پرس‌وگوهای مصنوعی تولیدشده توسط مدل‌های زبانی بزرگ

تحقیق در مورد استفاده از مدل‌های زبانی بزرگ برای تولید پرس‌وگوهای مصنوعی به منظور بهبود بازیابی کتاب‌های صوتی در سیستم جستجوی اسپاتیفای، با تمرکز بر حل چالش‌های شروع سرد از طریق تکمیل خودکار پرس‌وجو و ارتقای بازیابی.
audio-novel.com | PDF Size: 0.6 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - AudioBoost: بهبود کشف کتاب‌های صوتی در جستجوی اسپاتیفای از طریق پرس‌وگوهای مصنوعی تولیدشده توسط مدل‌های زبانی بزرگ

فهرست مطالب

1. مقدمه

معرفی کتاب‌های صوتی توسط اسپاتیفای یک مشکل شروع سرد قابل توجه ایجاد کرد که در آن محتوای جدید در مقایسه با محتوای موسیقی و پادکست تثبیت‌شده، از قابلیت بازیابی پایینی رنج می‌برد. سیستم AudioBoost این چالش را با بهره‌گیری از مدل‌های زبانی بزرگ برای تولید پرس‌وگوهای مصنوعی که قابلیت‌های فرموله‌سازی پرس‌وجو و بازیابی را تقویت می‌کنند، حل می‌کند.

معیارهای کلیدی عملکرد

  • نمایش کتاب‌های صوتی: +0.7%
  • کلیک‌های کتاب صوتی: +1.22%
  • تکمیل پرس‌وگوهای اکتشافی: +1.82%

2. روش‌شناسی

2.1 تولید پرس‌وگوی مصنوعی

AudioBoost از مدل‌های زبانی بزرگ شرط‌شده بر روی فراداده‌های کتاب صوتی برای تولید پرس‌وگوهای اکتشافی متنوع که موضوعات، ژانرها، کلیشه‌های داستانی و دهه‌ها را پوشش می‌دهند، استفاده می‌کند. فرآیند تولید از یک رویکرد مهندسی پرامپت ساختاریافته برای اطمینان از کیفیت و ارتباط پرس‌وجو پیروی می‌کند.

2.2 یکپارچه‌سازی تکمیل خودکار پرس‌وجو

پرس‌وگوهای مصنوعی در سیستم تکمیل خودکار پرس‌وجوی اسپاتیفای یکپارچه می‌شوند تا کاربران را ترغیب کنند پرس‌وگوهای اکتشافی بیشتری تایپ کنند و عدم تطابق واژگان بین رفتار جستجوی کاربر و محتوای کتاب صوتی را حل کنند.

2.3 ارتقای سیستم بازیابی

پرس‌وگوهای تولیدشده در موتور جستجوی بازیابی اسپاتیفای نمایه‌گذاری می‌شوند و مسیرهای اضافی برای کشف کتاب‌های صوتی از طریق جستجوهای گسترده‌تر و مبتنی بر موضوع به جای فقط تطابق دقیق عنوان ایجاد می‌کنند.

3. پیاده‌سازی فنی

3.1 چارچوب ریاضی

بهبود قابلیت بازیابی را می‌توان با استفاده از چارچوب احتمالی مدل کرد: $P(r|q,d) = \frac{\exp(\text{sim}(q,d))}{\sum_{d' \in D} \exp(\text{sim}(q,d'))}$ که در آن $q$ نشان‌دهنده پرس‌وگوها، $d$ نشان‌دهنده اسناد و $\text{sim}$ تابع شباهت است. هدف تولید پرس‌وگوی مصنوعی بیشینه‌سازی $\sum_{q \in Q_{\text{syn}}} P(r|q,d_{\text{audiobook}})$ است.

3.2 پیاده‌سازی کد

class AudioBoostQueryGenerator:
    def __init__(self, llm_model, metadata_fields):
        self.llm = llm_model
        self.fields = metadata_fields
    
    def generate_queries(self, audiobook_data, num_queries=10):
        prompt = self._construct_prompt(audiobook_data)
        synthetic_queries = self.llm.generate(
            prompt=prompt,
            max_tokens=50,
            num_return_sequences=num_queries
        )
        return self._filter_queries(synthetic_queries)
    
    def _construct_prompt(self, data):
        return f"""Generate diverse search queries for audiobook:
        Title: {data['title']}
        Author: {data['author']}
        Genre: {data['genre']}
        Themes: {data['themes']}
        Generate exploratory queries about topics, similar books, mood:"""

4. نتایج آزمایشی

4.1 ارزیابی آفلاین

ارزیابی آفلاین بهبودهای قابل توجهی در معیارهای قابلیت بازیابی کتاب صوتی نشان داد. پرس‌وگوهای مصنوعی پوشش را در مقایسه با پرس‌وگوهای آلی به تنهایی 35% افزایش دادند، با نمرات کیفیت که در مقیاس‌های ارزیابی انسانی از 0.85 فراتر رفت.

4.2 آزمایش A/B آنلاین

آزمایش A/B آنلاین که میلیون‌ها کاربر را شامل می‌شد، بهبودهای آماری معنی‌داری نشان داد: +0.7% در نمایش کتاب‌های صوتی، +1.22% در کلیک‌های کتاب صوتی و +1.82% در تکمیل پرس‌وگوهای اکتشافی که اثربخشی رویکرد AudioBoost را تأیید می‌کند.

5. کاربردهای آینده

روش‌شناسی AudioBoost را می‌توان به سناریوهای شروع سرد دیگر در پلتفرم‌های محتوا، از جمله نمایش‌های پادکست جدید، ژانرهای موسیقی در حال ظهور و محتوای ویدیویی گسترش داد. کار آینده شامل شخصی‌سازی پرس‌وگوهای مصنوعی بر اساس تاریخچه شنیداری کاربر و یکپارچه‌سازی درک محتوای چندوجهی است.

تحلیل تخصصی: معمای شروع سرد در کشف محتوا

AudioBoost نشان‌دهنده یک راه‌حل عمل‌گرا برای یکی از مداوم‌ترین مشکلات در سیستم‌های توصیه‌گر است: معضل شروع سرد. این رویکرد هوشمندانه شکاف بین تعاملات محدود کاربر و کشف محتوای جامع را با بهره‌گیری از مدل‌های زبانی بزرگ به عنوان پراکسی‌های مصنوعی کاربر پل می‌زند. این روش‌شناسی با تکنیک‌های مشابه در بینایی کامپیوتر همسو است، جایی که ترجمه دامنه سبک CycleGAN برای تولید داده آموزش برای کلاس‌های کم‌نمایش استفاده شده است [Zhu et al., 2017].

پیاده‌سازی فنی درک پیچیده‌ای از پویایی‌های اکوسیستم جستجو را نشان می‌دهد. با هدف‌گیری همزمان فرموله‌سازی پرس‌وجو (از طریق QAC) و بازیابی، AudioBoost یک چرخه فضیلت ایجاد می‌کند که در آن پیشنهادهای بهبودیافته منجر به پرس‌وگوهای بهتر می‌شوند که به نوبه خود عملکرد بازیابی را بهبود می‌بخشند. این رویکرد دوگانه یادآور سیستم‌های یادگیری تقویتی است که در آن فضاهای عمل و مشاهده به طور همزمان بهینه می‌شوند [Sutton & Barto, 2018].

با این حال، مهم‌ترین سهم مقاله ممکن است نمایش استقرار عملی مدل‌های زبانی بزرگ در سیستم‌های تولیدی باشد. در حالی که بسیاری از تحقیقات مدل‌های زبانی بزرگ بر عملکرد معیار متمرکز است، AudioBoost نشان می‌دهد که این مدل‌ها چگونه می‌توانند معیارهای تجاری ملموس را در کاربردهای دنیای واقعی هدایت کنند. افزایش 1.82% در پرس‌وگوهای اکتشافی نشان می‌دهد که سیستم با موفقیت رفتار کاربر را به سمت الگوهای جستجوی بیشتر مبتنی بر کشف سوق می‌دهد و چالش اساسی شروع سرد را حل می‌کند.

این رویکرد را می‌توان با گنجاندن عوامل خاص کاربر در تولید پرس‌وجو بیشتر تقویت کرد، مشابه نحوه‌ای که سیستم‌های توصیه‌گر مدرن محتوا را بر اساس ترجیحات فردی شخصی‌سازی می‌کنند [Ricci et al., 2011]. علاوه بر این، یکپارچه‌سازی تحلیل محتوای صوتی می‌تواند بعد دیگری برای تولید پرس‌وجو فراهم کند و فراتر از فراداده به درک محتوای واقعی حرکت کند.

6. مراجع

  1. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision.
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
  3. Ricci, F., Rokach, L., & Shapira, B. (2011). Introduction to recommender systems handbook. Springer.
  4. Palumbo, E., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. EARL Workshop@RecSys.

دیدگاه تحلیلگر صنعت

دقیق و کاربردی: AudioBoost فقط یک آزمایش هوش مصنوعی دیگر نیست—یک حمله دقیق و حساب‌شده علیه مشکل شروع سرد است که برای دهه‌ها پلتفرم‌های محتوا را آزار داده است. اسپاتیفای از مدل‌های زبانی بزرگ نه به عنوان چت‌بات، بلکه به عنوان سلاح‌های استراتژیک برای تغییر شکل رفتار کاربر و اقتصاد کشف محتوا استفاده می‌کند.

زنجیره علّی: زنجیره علّی به طور درخشان مهندسی شده است: تعاملات محدود کتاب صوتی → تولید پرس‌وگوی مصنوعی → بهبود پیشنهادهای QAC → تغییر رفتار کاربر → افزایش پرس‌وگوهای اکتشافی → افزایش قابلیت بازیابی کتاب صوتی → بهبود معیارهای تجاری. این یک حلقه کشف خودتقویت‌کننده ایجاد می‌کند که اساساً چشم‌انداز نمایش محتوا را تغییر می‌دهد.

نقاط قوت و ضعف: نوآوری برجسته استقرار دوگانه در هر دو سیستم پیشنهاد پرس‌وجو و بازیابی است—اکثر شرکت‌ها فقط در یکی از آنها متوقف می‌شوند. افزایش 1.82% در پرس‌وگوهای اکتشافی نشان‌دهنده تغییر رفتار واقعی است، نه فقط بهینه‌سازی الگوریتمی. با این حال، این رویکرد خطر ایجاد یک اکوسیستم پرس‌وگوی مصنوعی جدا شده از قصد واقعی کاربر را دارد و مقاله به تخریب احتمالی کیفیت پرس‌وجو در طول زمان نمی‌پردازد.

بینش عملی: برای رهبران محصول: این نشان می‌دهد که کاربردهای مدل زبانی بزرگ باید بر مداخلات در سطح اکوسیستم به جای راه‌حل‌های نقطه‌ای متمرکز شوند. برای مهندسان: درس واقعی در تولیدی کردن تکنیک‌های آکادمیک است—توجه کنید که چگونه از معیارهای تثبیت‌شده به جای دنبال کردن چارچوب‌های ارزیابی نوآورانه استفاده کردند. مرز بعدی شخصی‌سازی این پرس‌وگوهای مصنوعی در حین حفظ تنوع کشف خواهد بود.