انتخاب زبان

AudioBoost: بهبود کشف کتاب‌های صوتی در جستجوی اسپاتیفای از طریق پرس‌وجوهای مصنوعی تولیدشده توسط مدل‌های زبانی بزرگ

تحلیل سیستم AudioBoost که از مدل‌های زبانی بزرگ برای تولید پرس‌وجوهای مصنوعی از فراداده‌های کتاب‌های صوتی، به منظور بهبود بازیابی و پیشنهادات جستجو در سناریوی شروع سرد اسپاتیفای استفاده می‌کند.
audio-novel.com | PDF Size: 0.6 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - AudioBoost: بهبود کشف کتاب‌های صوتی در جستجوی اسپاتیفای از طریق پرس‌وجوهای مصنوعی تولیدشده توسط مدل‌های زبانی بزرگ

1. مقدمه و بیان مسئله

گسترش اسپاتیفای به حوزه کتاب‌های صوتی، یک مسئله کلاسیک شروع سرد ایجاد کرد. سیستم‌های جستجو و پیشنهاد این پلتفرم که طی سال‌ها برای تعاملات موسیقی و پادکست بهینه‌سازی شده بودند، از یک سوگیری بازیابی‌پذیری شدید علیه نوع محتوای جدید رنج می‌بردند. کاربران عادت به جستجوی کتاب‌های صوتی نداشتند و سیستم‌ها فاقد داده تعاملی کافی برای رتبه‌بندی دقیق آن‌ها در برابر محتوای جاافتاده بودند. این امر یک چرخه معیوب ایجاد کرد: قابلیت مشاهده پایین منجر به تعاملات اندک شد که به نوبه خود رتبه‌بندی ضعیف را تقویت کرد. چالش اصلی دو جنبه داشت: 1) الهام بخشیدن به کاربران برای تایپ پرس‌وجوهای اکتشافی و موضوع‌محور برای کتاب‌های صوتی (مثلاً "دلهره‌آورهای روانشناختی در اسکاندیناوی") به جای عنوان‌های خاص، و 2) تقویت سیستم‌های بازیابی برای مدیریت موثر این پرس‌وجوهای گسترده و اکتشافی که داده کاربری واقعی اندکی برای آن‌ها وجود داشت.

2. سیستم AudioBoost

AudioBoost پاسخ مهندسی‌شده اسپاتیفای به این چالش شروع سرد است. این سیستم صرفاً یک تنظیم رتبه‌بندی نیست، بلکه یک مداخله سیستمی با استفاده از داده‌های مصنوعی برای راه‌اندازی فرآیند کشف است.

2.1 روش‌شناسی هسته‌ای

این سیستم از فراداده غنی و ساختاریافته مرتبط با هر کتاب صوتی (عنوان، نویسنده، ناشر، ژانر، خلاصه، تروپ‌ها) بهره می‌برد. این فراداده، بذر تولید است.

2.2 تولید پرس‌وجوی مصنوعی با مدل‌های زبانی بزرگ

یک مدل زبانی بزرگ (LLM) تحریک می‌شود تا چندین پرس‌وجوی جستجوی کاربر محتمل را بر اساس این فراداده تولید کند. به عنوان مثال، با توجه به فراداده یک کتاب صوتی علمی-تخیلی درباره هوش مصنوعی، مدل زبانی بزرگ ممکن است پرس‌وجوهایی مانند این تولید کند: "بهترین رمان‌های دیستوپیایی هوش مصنوعی"، "کتاب‌های علمی-تخیلی درباره خودآگاهی"، "داستان‌های آینده‌نگرانه درباره فناوری". این فرآیند به طور مصنوعی "دنباله بلند" ترافیک جستجو را ایجاد می‌کند که به طور طبیعی در طول زمان شکل می‌گرفت.

2.3 استراتژی نمایه‌سازی دوگانه

نبوغ AudioBoost در کاربرد دوگانه آن نهفته است:

  • تکمیل خودکار پرس‌وجو (QAC): پرس‌وجوهای مصنوعی به عنوان پیشنهاد تزریق می‌شوند و با کاشتن ایده‌های جستجوی اکتشافی، مستقیماً بر رفتار کاربر تأثیر می‌گذارند.
  • موتور بازیابی جستجو: همان پرس‌وجوهای مصنوعی در برابر کتاب صوتی نمایه‌سازی می‌شوند و امتیاز تطابق آن را برای پرس‌وجوهای کاربری واقعی مشابه بهبود می‌بخشند و در نتیجه بازیابی‌پذیری آن را افزایش می‌دهند.
این امر یک حلقه بازخورد مثبت ایجاد می‌کند: پیشنهادات بهتر منجر به پرس‌وجوهای اکتشافی بیشتر می‌شود که سپس توسط سیستم بازیابی بهتر سرویس‌دهی می‌شوند.

نتایج کلیدی در یک نگاه

  • نمایش کتاب‌های صوتی: +0.7%
  • کلیک‌های کتاب صوتی: +1.22%
  • تکمیل پرس‌وجوهای اکتشافی: +1.82%

منبع: آزمون A/B آنلاین، سیستم AudioBoost

3. پیاده‌سازی فنی و ارزیابی

3.1 معیارهای ارزیابی آفلاین

پیش از آزمون زنده، کیفیت و سودمندی پرس‌وجوهای مصنوعی به صورت آفلاین ارزیابی شد. معیارهای احتمالی شامل موارد زیر بودند:

  • ارتباط پرس‌وجو: ارزیابی انسانی یا مبتنی بر مدل از این که آیا یک پرس‌وجوی تولیدشده، یک جستجوی محتمل برای کتاب صوتی مرتبط است یا خیر.
  • پوشش بازیابی‌پذیری: اندازه‌گیری افزایش تعداد کتاب‌های صوتی که پس از نمایه‌سازی داده‌های مصنوعی، در نتایج برتر جستجو (بالای K) برای مجموعه‌ای از پرس‌وجوهای آزمایشی ظاهر می‌شوند.
  • تنوع و نوآوری: اطمینان از این که پرس‌وجوهای تولیدشده، طیف گسترده‌ای از مقاصد جستجو (موضوع، ژانر، تروپ، حال‌وهوا) را فراتر از تطابق‌های آشکار عنوان/نویسنده پوشش می‌دهند.
مقاله نشان می‌دهد که پرس‌وجوهای مصنوعی در این محیط آفلاین، "کیفیت بالا" داشته و بازیابی‌پذیری را افزایش داده‌اند.

3.2 نتایج آزمون A/B آنلاین

اعتبارسنجی نهایی، یک آزمون A/B آنلاین کنترل‌شده بود. گروه آزمایش، جستجو با فعال‌سازی AudioBoost را تجربه کردند. نتایج از نظر آماری معنادار و از نظر عملیاتی قابل توجه بودند:

  • +0.7% نمایش کتاب‌های صوتی: کتاب‌های صوتی بیشتری در نتایج جستجو ظاهر شدند.
  • +1.22% کلیک‌های کتاب صوتی: کاربران با این نتایج کتاب صوتی تعامل بیشتری داشتند.
  • +1.82% تکمیل پرس‌وجوهای اکتشافی: نکته حیاتی این که کاربران با نرخ بالاتری پرس‌وجوهای اکتشافی پیشنهادی سیستم را پذیرفتند که اثبات می‌کند تلنگر رفتاری مؤثر بوده است.
این معیارها تأیید می‌کنند که AudioBoost با موفقیت چرخه شروع سرد را شکست.

3.3 شاخص‌های کلیدی عملکرد (KPIs)

شاخص‌های کلیدی عملکرد انتخاب شده، به طور متخصصانه‌ای با اهداف تجاری و محصول همسو هستند: کشف (نمایش)، تعامل (کلیک‌ها)، و تغییر رفتار پرس‌وجو (تکمیل‌های اکتشافی).

4. بینش‌های کلیدی و دیدگاه تحلیلی

بینش کلیدی: AudioBoost اسپاتیفای، یک کلاس استادانه در عمل‌گرایی هوش مصنوعی کاربردی است. این سیستم مسئله شروع سرد را نه به عنوان کمبود داده، بلکه به عنوان کمبود سیگنال بازتعریف می‌کند. به جای انتظار برای تولید ارگانیک آن سیگنال توسط کاربران (یک پیشنهاد بازنده برای یک کاتالوگ جدید)، از مدل‌های زبانی بزرگ برای شبیه‌سازی مقیاس‌پذیر قصد کاربر استفاده می‌کند و به طور مؤثری بازار را راه‌اندازی می‌کند. این یک تکامل پیچیده‌تر از فیلترگذاری سنتی مبتنی بر محتوا است که با توانایی هوش مصنوعی تولیدی در درک و تقلید ظرافت‌های زبان انسانی تقویت شده است.

جریان منطقی: منطق سیستم به زیبایی دایره‌ای و خودتقویت‌کننده است. فراداده → پرس‌وجوهای مصنوعی → بهبود QAC و بازیابی → تعامل کاربر → داده واقعی → بهبود مدل‌ها. این یک میان‌بر مهندسی‌شده به اثرات شبکه‌ای است که پلتفرم‌هایی مانند اسپاتیفای به آن متکی هستند. این رویکرد یادآور تکنیک‌هایی در بینایی کامپیوتر مانند CycleGAN (Zhu و همکاران، 2017) است که یاد می‌گیرد بدون مثال‌های جفت‌شده، بین حوزه‌ها ترجمه کند (مثلاً اسب به گورخر). به طور مشابه، AudioBoost یاد می‌گیرد بین حوزه فراداده کتاب صوتی و حوزه قصد جستجوی کاربر "ترجمه" کند، بدون آن که در ابتدا به داده تعامل جفت‌شده (پرس‌وجو، کتاب صوتی) متکی باشد.

نقاط قوت و ضعف: نقطه قوت اصلی آن قابلیت استقرار فوری و تأثیر است، همان‌طور که آزمون A/B مثبت نشان داد. این یک مداخله کم‌خطر و پربازده است که در زیرساخت موجود (QAC، نمایه بازیابی) عمل می‌کند. با این حال، این رویکرد دارای نقص‌های ذاتی است. اول، خطر ایجاد یک "اتاق پژواک مصنوعی" را دارد—اگر تولید پرس‌وجو توسط مدل زبانی بزرگ، سوگیرانه یا محدود باشد، می‌تواند به جای گسترش، چشم‌انداز کشف را محدود کند. دوم، در کوتاه‌مدت به طور بالقوه بازیابی را از علاقه واقعی کاربر جدا می‌کند؛ ممکن است یک کتاب برای یک پرس‌وجوی مصنوعی بازیابی شود که هیچ کاربر واقعی به آن اهمیت نمی‌دهد. سوم، همان‌طور که پژوهش‌هایی از مؤسساتی مانند استنفورد HAI اشاره کرده‌اند، اتکای بیش از حد به داده‌های مصنوعی در صورت مدیریت نشدن دقیق با حلقه‌های بازخورد داده واقعی، می‌تواند منجر به فروپاشی مدل یا انحراف غیرمنتظره شود.

بینش‌های عملی: برای رهبران محصول، نتیجه گیری روشن است: هوش مصنوعی تولیدی، سلاح نهایی شما برای شروع سرد است. این نقشه در حوزه‌های مختلف قابل تکرار است—دسته‌بندی‌های محصول جدید، بازارهای جغرافیایی جدید، قالب‌های محتوای جدید. کلید کار، تمرکز بر کیفیت و تنوع فرآیند تولید است. در مهندسی پرامپت، گردآوری و اعتبارسنجی خروجی‌های مصنوعی به عنوان یک وظیفه مهندسی درجه یک سرمایه‌گذاری کنید. علاوه بر این، برای منسوخ شدن سیستم برنامه‌ریزی کنید؛ هدف AudioBoost باید تسریع جمع‌آوری داده واقعی باشد تا لایه مصنوعی به تدریج حذف یا کم‌وزن شود و به یک اکوسیستم کشف کاملاً ارگانیک گذار کند. این یک عصای موقت دائمی نیست، بلکه یک شتاب‌دهنده استراتژیک است.

5. جزئیات فنی و چارچوب ریاضی

اگرچه مقاله به فرمول‌های پیچیده نمی‌پردازد، اما بهبود هسته‌ای بازیابی را می‌توان مفهومی کرد. فرض کنید $R(q, d)$ امتیاز ارتباط سند (کتاب صوتی) $d$ برای پرس‌وجوی $q$ در مدل اصلی باشد. در شروع سرد، برای یک کتاب صوتی $d_a$ و یک پرس‌وجوی اکتشافی $q_e$، $R(q_e, d_a)$ به دلیل پراکندگی داده‌ها پایین است.

AudioBoost مجموعه‌ای از پرس‌وجوهای مصنوعی $Q_s = \{q_{s1}, q_{s2}, ..., q_{sn}\}$ را برای $d_a$ تولید می‌کند. سپس سیستم بازیابی به گونه‌ای تقویت می‌شود که امتیاز ارتباط جدید $R'(q, d)$ تطابق با این پرس‌وجوهای مصنوعی را در نظر بگیرد. یک دیدگاه ساده‌شده می‌تواند این باشد:

$R'(q_e, d_a) = R(q_e, d_a) + \lambda \cdot \sum_{q_s \in Q_s} \text{sim}(q_e, q_s) \cdot I(d_a, q_s)$

جایی که:

  • $\text{sim}(q_e, q_s)$ یک امتیاز شباهت معنایی بین پرس‌وجوی اکتشافی کاربر و یک پرس‌وجوی مصنوعی است (مثلاً از یک مدل جاسازی).
  • $I(d_a, q_s)$ یک نشانگر یا قدرت ارتباط بین $d_a$ و $q_s$ است (که توسط تولید مدل زبانی بزرگ ایجاد شده).
  • $\lambda$ یک پارامتر ترکیب‌کننده است که تأثیر سیگنال مصنوعی را کنترل می‌کند و باید با انباشت داده واقعی کاهش یابد.
این چارچوب نشان می‌دهد که چگونه پرس‌وجوهای مصنوعی به عنوان یک پل عمل می‌کنند و امتیاز $d_a$ را برای $q_e$ از طریق شباهت معنایی به همتایان مصنوعی از پیش تولیدشده آن افزایش می‌دهند.

6. چارچوب تحلیل: یک مطالعه موردی بدون کدنویسی

سناریو: یک پلتفرم استریم جدید به نام "StreamFlow" یک دسته‌بندی ویژه استندآپ کمدی راه‌اندازی می‌کند. با همان مشکل شروع سرد اسپاتیفای با کتاب‌های صوتی مواجه می‌شود.

اعمال چارچوب AudioBoost:

  1. شناسایی فراداده: برای هر ویژه کمدی: نام کمدین، عنوان ویژه، برچسب‌ها (مثلاً مشاهده‌ای، سیاسی، سوررئال)، کلیدواژه‌های متن، سال ضبط، حال‌وهوای مخاطب (پرسروصدا، صمیمی).
  2. تعریف پرامپت‌های تولید پرس‌وجو: پرامپت‌های مدل زبانی بزرگ را مهندسی کنید مانند: "با توجه به یک ویژه کمدی از [کمدین] با عنوان [عنوان] و برچسب‌های [برچسب‌ها]، 10 پرس‌وجوی جستجوی متنوع تولید کنید که یک کاربر ممکن است برای یافتن محتوای کمدی مشابه تایپ کند. پرس‌وجوهایی درباره سبک، موضوع، حال‌وهوا و کمدین‌های قابل مقایسه را شامل شوید."
  3. تولید و نمایه‌سازی: برای یک ویژه با برچسب "هجونامه سیاسی"، "دهه 2020"، مدل زبانی بزرگ تولید می‌کند: "نظرات طنز سیاسی"، "بهترین هجو روی رویدادهای جاری"، "کمدین‌هایی مانند [کمدین]"، "استندآپ درباره جامعه مدرن". این موارد نمایه‌سازی می‌شوند.
  4. کاربرد دوگانه: این پرس‌وجوها زمانی که کاربر شروع به تایپ "کمدی درباره..." می‌کند، به عنوان پیشنهاد ظاهر می‌شوند. همچنین زمانی که کاربر "نمایش‌های طنز اخبار" را جستجو می‌کند، به بازیابی این ویژه کمک می‌کنند.
  5. اندازه‌گیری و تکرار: شاخص‌های کلیدی عملکرد را ردیابی کنید: نمایش‌های ویژه کمدی، شروع پخش، و استفاده از پیشنهادات پرس‌وجوی تولیدشده. از این داده واقعی برای تنظیم دقیق پرامپت مدل زبانی بزرگ و کاهش تدریجی پارامتر $\lambda$ برای ویژه‌های قدیمی‌تر با انباشت بازدیدها استفاده کنید.
این مطالعه موردی، قابلیت انتقال مفهوم هسته‌ای را فراتر از کتاب‌های صوتی نشان می‌دهد.

7. کاربردهای آینده و جهت‌های پژوهشی

الگوی AudioBoost چندین مسیر جذاب آینده را باز می‌کند:

  • بازیابی متقابل حالتی و چندحالتی: گسترش فراتر از پرس‌وجوهای متنی. آیا می‌توان تکه‌های صوتی مصنوعی (مثلاً "چیزی پخش کن که شبیه این به نظر می‌رسد") یا تابلوهای خلق‌وخوی بصری را از فراداده برای راه‌اندازی جستجوی صوتی یا بصری تولید کرد؟
  • تولید مصنوعی شخصی‌سازی‌شده: حرکت از پرس‌وجوهای مصنوعی یک‌اندازه-برای-همه به تولید پرس‌وجوهای شرط‌شده بر اساس پروفایل‌های کاربری فردی. به عنوان مثال، برای کاربری که به پادکست‌های تاریخی گوش می‌دهد، پرس‌وجوهای کتاب صوتی مانند "زندگینامه‌های تاریخی با تحقیق عمیق" به جای موارد عمومی تولید کنید.
  • تولید پویا و سازگار: به جای تولید دسته‌ای ثابت، ایجاد سیستمی که در آن مدل تولید پرس‌وجوی مصنوعی به طور مداوم بر اساس این که کدام پرس‌وجوهای مصنوعی در واقع منجر به تعامل کاربر می‌شوند، سازگار می‌شود و یک حلقه خودبهبود ایجاد می‌کند.
  • کاهش سوگیری مصنوعی: یک جهت پژوهشی اصلی، توسعه روش‌هایی برای حسابرسی و اطمینان از تنوع و انصاف پرس‌وجوهای تولیدشده توسط مدل زبانی بزرگ برای جلوگیری از تقویت سوگیری‌های اجتماعی یا کاتالوگی در فرآیند کشف است. تکنیک‌های پژوهش انصاف الگوریتمی در اینجا حیاتی خواهند بود.
  • کاربرد در جستجوی سازمانی: این روش مستقیماً برای موتورهای جستجوی داخلی شرکت‌ها برای مخازن سند جدید، پایگاه‌های دانش یا کاتالوگ‌های محصول قابل اعمال است، جایی که رفتار جستجوی اولیه کاربر ناشناخته است.
مرز پیشرفت در پویاتر، شخصی‌سازی‌شده‌تر و پاسخگوتر کردن فرآیند تولید مصنوعی نهفته است.

8. منابع

  1. Azad, H. K., & Deepak, A. (2019). Query expansion techniques for information retrieval: A survey. Information Processing & Management, 56(5), 1698-1735.
  2. Jiang, J. Y., et al. (2021). Understanding and predicting user search mindset. ACM Transactions on Information Systems.
  3. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). [منبع خارجی - CycleGAN]
  4. Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). On the Risks and Challenges of Synthetic Data. [منبع خارجی - مؤسسه پژوهشی]
  5. Palumbo, E., Penha, G., Liu, A., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. In Proceedings of the EARL Workshop@RecSys.
  6. Bennett, P. N., et al. (2012). Modeling the impact of short- and long-term behavior on search personalization. In Proceedings of the 35th international ACM SIGIR conference.