اختر اللغة

AudioBoost: تعزيز اكتشاف الكتب الصوتية في بحث Spotify عبر استعلامات اصطناعية مولّدة بواسطة نماذج اللغة الكبيرة

تحليل نظام AudioBoost الذي يستخدم نماذج اللغة الكبيرة لتوليد استعلامات اصطناعية من بيانات وصفية للكتب الصوتية لتحسين الاسترجاع والاقتراحات في سيناريو البدء البارد لـ Spotify.
audio-novel.com | PDF Size: 0.6 MB
التقييم: 4.5/5
تقييمك
لقد قيمت هذا المستند مسبقاً
غلاف مستند PDF - AudioBoost: تعزيز اكتشاف الكتب الصوتية في بحث Spotify عبر استعلامات اصطناعية مولّدة بواسطة نماذج اللغة الكبيرة

1. المقدمة وبيان المشكلة

أدّى توسع Spotify في مجال الكتب الصوتية إلى خلق مشكلة بدء بارد كلاسيكية. عانت أنظمة البحث والتوصية في المنصة، المُحسّنة لسنوات من التفاعلات مع الموسيقى والبودكاست، من تحيّز شديد في قابلية الاسترجاع ضد نوع المحتوى الجديد. لم يكن المستخدمون معتادين على البحث عن كتب صوتية، كما افتقرت الأنظمة إلى بيانات تفاعل كافية لترتيبها بدقة مقارنة بالمحتوى الراسخ. وهذا خلق حلقة مفرغة: أدّى ضعف الظهور إلى تفاعلات قليلة، مما عزز بدوره الترتيب السيئ. كان التحدي الأساسي مزدوجًا: 1) إلهام المستخدمين لكتابة استعلامات استكشافية قائمة على الموضوع للكتب الصوتية (مثل "روايات التشويق النفسي التي تدور أحداثها في إسكندنافيا") بدلاً من العناوين المحددة، و2) تعزيز أنظمة الاسترجاع للتعامل بفعالية مع هذه الاستعلامات الاستكشافية الواسعة التي لا توجد عنها سوى بيانات مستخدم حقيقية قليلة.

2. نظام AudioBoost

AudioBoost هو استجابة Spotify الهندسية لهذا التحدي في مرحلة البدء البارد. إنه ليس مجرد تعديل في الترتيب، بل هو تدخل منهجي يستخدم البيانات الاصطناعية لبدء عملية الاكتشاف.

2.1 المنهجية الأساسية

يستفيد النظام من البيانات الوصفية الغنية والمنظمة المرتبطة بكل كتاب صوتي (العنوان، المؤلف، الناشر، النوع، الملخص، السمات). هذه البيانات الوصفية هي البذرة للتوليد.

2.2 توليد استعلامات اصطناعية باستخدام نماذج اللغة الكبيرة

يتم تحفيز نموذج لغة كبير (LLM) لتوليد استعلامات بحث مستخدم محتملة متعددة بناءً على هذه البيانات الوصفية. على سبيل المثال، بالنظر إلى البيانات الوصفية لكتاب صوتي خيال علمي عن الذكاء الاصطناعي، قد يولد نموذج اللغة الكبيرة استعلامات مثل: "أفضل روايات ديستوبيا الذكاء الاصطناعي"، "كتب خيال علمي عن الوعي"، "قصص مستقبلية عن التكنولوجيا". تخلق هذه العملية بشكل اصطناعي "الذيل الطويل" لحركة البحث الذي كان سيتطور بشكل طبيعي بمرور الوقت.

2.3 استراتيجية الفهرسة المزدوجة

تكمن عبقرية AudioBoost في تطبيقه المزدوج:

  • الإكمال التلقائي للاستعلامات (QAC): يتم إدخال الاستعلامات الاصطناعية كاقتراحات، مما يؤثر مباشرة على سلوك المستخدم من خلال زرع أفكار بحث استكشافية.
  • محرك استرجاع البحث: يتم فهرسة نفس الاستعلامات الاصطناعية مقابل الكتاب الصوتي، مما يحسّن درجة تطابقه مع استعلامات المستخدم الحقيقية المشابهة، وبالتالي يزيد من قابلية استرجاعه.
وهذا يخلق حلقة تغذية راجعة إيجابية: تؤدي الاقتراحات الأفضل إلى المزيد من الاستعلامات الاستكشافية، والتي يتم بعد ذلك خدمتها بشكل أفضل من خلال نظام الاسترجاع.

النتائج الرئيسية في لمحة

  • مرات ظهور الكتب الصوتية: +0.7%
  • نقرات على الكتب الصوتية: +1.22%
  • إكمالات الاستعلامات الاستكشافية: +1.82%

المصدر: اختبار A/B عبر الإنترنت، نظام AudioBoost

3. التنفيذ التقني والتقييم

3.1 مقاييس التقييم خارج الخدمة

قبل الاختبار المباشر، تم تقييم جودة وفائدة الاستعلامات الاصطناعية خارج الخدمة. تضمنت المقاييس على الأرجح:

  • ملاءمة الاستعلام: تقييم بشري أو قائم على النموذج لما إذا كان الاستعلام المُولد يمثل بحثًا محتملاً للكتاب الصوتي المرتبط به.
  • تغطية قابلية الاسترجاع: قياس الزيادة في عدد الكتب الصوتية التي تظهر في نتائج البحث الأعلى K لسلة من استعلامات الاختبار بعد فهرسة البيانات الاصطناعية.
  • التنوع والجدة: التأكد من أن الاستعلامات المُولدة تغطي نطاقًا واسعًا من نوايا البحث (الموضوع، النوع، السمة، المزاج) تتجاوز التطابقات الواضحة للعنوان/المؤلف.
تشير الورقة البحثية إلى أن الاستعلامات الاصطناعية أثبتت أنها "عالية الجودة" وزادت من قابلية الاسترجاع في هذا الإعداد خارج الخدمة.

3.2 نتائج اختبار A/B عبر الإنترنت

كان التحقق النهائي هو اختبار A/B عبر الإنترنت مضبوطًا. اختبرت مجموعة المعالجة البحث مع تفعيل AudioBoost. كانت النتائج ذات دلالة إحصائية ومعنى تشغيلي:

  • +0.7% مرات ظهور الكتب الصوتية: تم عرض المزيد من الكتب الصوتية في نتائج البحث.
  • +1.22% نقرات على الكتب الصوتية: تفاعل المستخدمون مع نتائج الكتب الصوتية هذه بشكل أكبر.
  • +1.82% إكمالات الاستعلامات الاستكشافية: بشكل حاسم، تبنى المستخدمون الاستعلامات الاستكشافية المقترحة من النظام بمعدل أعلى، مما يثبت نجاح الدفع السلوكي.
تؤكد هذه المقاييس أن AudioBoost نجح في كسر حلقة البدء البارد.

3.3 مؤشرات الأداء الرئيسية

مؤشرات الأداء الرئيسية المختارة تتماشى بشكل خبير مع أهداف العمل والمنتج: الاكتشاف (مرات الظهور)، المشاركة (النقرات)، وتحول سلوك الاستعلام (إكمالات الاستعلامات الاستكشافية).

4. الرؤى الأساسية ومنظور المحلل

الرؤية الأساسية: يمثل AudioBoost من Spotify نموذجًا رائدًا في البراغماتية التطبيقية للذكاء الاصطناعي. يعيد صياغة مشكلة البدء البارد ليس على أنها نقص في البيانات، بل على أنها نقص في الإشارة. بدلاً من انتظار قيام المستخدمين بتوليد تلك الإشارة بشكل عضوي (وهو اقتراح خاسر لفهرس جديد)، يستخدم نماذج اللغة الكبيرة لمحاكاة نية المستخدم على نطاق واسع، مما يبدأ تشغيل السوق بشكل فعال. هذا تطور أكثر تطورًا للتصفية القائمة على المحتوى التقليدية، معززًا بقدرة الذكاء الاصطناعي التوليدي على فهم وتقليد الفروق الدقيقة في اللغة البشرية.

التدفق المنطقي: منطق النظام دائري أنيق ويعزز نفسه. البيانات الوصفية → استعلامات اصطناعية → تحسين QAC والاسترجاع → مشاركة المستخدم → بيانات حقيقية → نماذج محسنة. إنه اختصار هندسي لتأثيرات الشبكة التي تعتمد عليها منصات مثل Spotify. هذا النهج يذكرنا بتقنيات في رؤية الكمبيوتر مثل CycleGAN (Zhu et al., 2017)، التي تتعلم الترجمة بين المجالات (مثل الخيول إلى حمر الوحش) دون أمثلة مقترنة. وبالمثل، يتعلم AudioBoost "الترجمة" بين مجال البيانات الوصفية للكتاب الصوتي ومجال نية بحث المستخدم، دون الاعتماد على بيانات تفاعل مقترنة (استعلام، كتاب صوتي) في البداية.

نقاط القوة والضعف: القوة الأساسية هي قابلية النشر الفوري والتأثير، كما يظهر من اختبار A/B الإيجابي. إنه تدخل منخفض المخاطر وعالي العائد يعمل ضمن البنية التحتية الحالية (QAC، فهرس الاسترجاع). ومع ذلك، فإن النهج له عيوب جوهرية. أولاً، إنه يخاطر بخلق "غرفة صدى للتوليف" — إذا كان توليد الاستعلامات بواسطة نموذج اللغة الكبيرة متحيزًا أو محدودًا، فقد يضيق، بدلاً من توسيع، مشهد الاكتشاف. ثانيًا، من المحتمل أن يفصل الاسترجاع عن اهتمام المستخدم الحقيقي على المدى القصير؛ قد يتم استرجاع كتاب لاستعلام اصطناعي لا يهتم به أي مستخدم حقيقي. ثالثًا، كما لوحظ في أبحاث من مؤسسات مثل Stanford HAI، يمكن أن يؤدي الاعتماد المفرط على البيانات الاصطناعية إلى انهيار النموذج أو انحراف غير متوقع إذا لم تتم إدارته بعناية مع حلقات تغذية راجعة للبيانات الحقيقية.

رؤى قابلة للتنفيذ: لقادة المنتج، الاستنتاج واضح: الذكاء الاصطناعي التوليدي هو سلاحك النهائي للبدء البارد. المخطط قابل للتكرار عبر المجالات — فئات المنتجات الجديدة، الأسواق الجغرافية الجديدة، تنسيقات المحتوى الجديدة. المفتاح هو التركيز على جودة وتنوع عملية التوليد. استثمر في هندسة المحفزات، والانتقاء، والتحقق من المخرجات الاصطناعية كعمل هندسي من الدرجة الأولى. علاوة على ذلك، خطّط للتقادم المحتمل للنظام؛ يجب أن يكون هدف AudioBoost هو تسريع جمع البيانات الحقيقية بحيث يمكن التخلص التدريجي من الطبقة الاصطناعية أو تقليل وزنها، والانتقال إلى نظام اكتشاف عضوي بالكامل. هذا ليس عكازًا دائمًا، بل هو مُسرّع استراتيجي.

5. التفاصيل التقنية والإطار الرياضي

على الرغم من أن الورقة البحثية لا تخوض في صيغ معقدة، إلا أنه يمكن تصور تعزيز الاسترجاع الأساسي. لنفترض أن $R(q, d)$ هي درجة الصلة للمستند (الكتاب الصوتي) $d$ للاستعلام $q$ في النموذج الأصلي. في حالة البدء البارد، بالنسبة لكتاب صوتي $d_a$ واستعلام استكشافي $q_e$، تكون $R(q_e, d_a)$ منخفضة بسبب ندرة البيانات.

يولد AudioBoost مجموعة من الاستعلامات الاصطناعية $Q_s = \{q_{s1}, q_{s2}, ..., q_{sn}\}$ لـ $d_a$. ثم يتم تعزيز نظام الاسترجاع بحيث تأخذ درجة الصلة الجديدة $R'(q, d)$ في الاعتبار التطابقات مع هذه الاستعلامات الاصطناعية. يمكن أن يكون المنظور المبسط كما يلي:

$R'(q_e, d_a) = R(q_e, d_a) + \lambda \cdot \sum_{q_s \in Q_s} \text{sim}(q_e, q_s) \cdot I(d_a, q_s)$

حيث:

  • $\text{sim}(q_e, q_s)$ هي درجة تشابه دلالي بين استعلام المستخدم الاستكشافي واستعلام اصطناعي (على سبيل المثال، من نموذج تضمين).
  • $I(d_a, q_s)$ هو مؤشر أو قوة ارتباط بين $d_a$ و $q_s$ (تم إنشاؤه بواسطة توليد نموذج اللغة الكبيرة).
  • $\lambda$ هي معلمة مزج تتحكم في تأثير الإشارة الاصطناعية، والتي يجب أن تضعف مع تراكم البيانات الحقيقية.
يوضح هذا الإطار كيف تعمل الاستعلامات الاصطناعية كجسر، مما يعزز درجة $d_a$ لـ $q_e$ عبر التشابه الدلالي مع نظيراتها الاصطناعية المُولدة مسبقًا.

6. إطار التحليل: دراسة حالة غير برمجية

السيناريو: تطلق منصة بث جديدة تسمى "StreamFlow" فئة خاصة للكوميديا الارتجالية. تواجه نفس مشكلة البدء البارد مثل Spotify مع الكتب الصوتية.

تطبيق إطار عمل AudioBoost:

  1. تحديد البيانات الوصفية: لكل عرض كوميدي خاص: اسم الكوميدي، عنوان العرض الخاص، الوسوم (مثل كوميديا الملاحظة، السياسية، السريالية)، كلمات النص، سنة التسجيل، جو الجمهور (صاخب، حميمي).
  2. تحديد محفزات توليد الاستعلامات: هندسة محفزات لنماذج اللغة الكبيرة مثل: "بالنظر لعرض كوميدي خاص لـ [اسم الكوميدي] بعنوان [العنوان] مع وسوم [الوسوم]، قم بتوليد 10 استعلامات بحث متنوعة قد يكتبها مستخدم للعثور على محتوى كوميدي مشابه. قم بتضمين استعلامات حول الأسلوب، الموضوع، المزاج، والكوميديين المشابهين."
  3. التوليد والفهرسة: لعرض خاص موسوم بـ "هجاء سياسي"، "عشرينيات القرن الحادي والعشرين"، يولد نموذج اللغة الكبيرة: "تعليقات سياسية مضحكة"، "أفضل هجاء على الأحداث الجارية"، "كوميديون مثل [اسم الكوميدي]"، "كوميديا ارتجالية عن المجتمع الحديث". يتم فهرسة هذه الاستعلامات.
  4. التطبيق المزدوج: تظهر هذه الاستعلامات كاقتراحات عندما يبدأ المستخدم في كتابة "كوميديا عن...". كما تساعد في استرجاع هذا العرض الخاص عندما يبحث المستخدم عن "عروض ساخرة عن الأخبار".
  5. القياس والتكرار: تتبع مؤشرات الأداء الرئيسية: مرات ظهور العروض الكوميدية الخاصة، بدءات التشغيل، واستخدام اقتراحات الاستعلام المُولدة. استخدم هذه البيانات الحقيقية لضبط محفز نموذج اللغة الكبيرة وتقليل معلمة $\lambda$ تدريجيًا للعروض الخاصة الأقدم مع تراكم المشاهدات.
توضح دراسة الحالة هذه قابلية نقل المفهوم الأساسي خارج نطاق الكتب الصوتية.

7. التطبيقات المستقبلية واتجاهات البحث

يفتح نموذج AudioBoost عدة مسارات مستقبلية مقنعة:

  • الاسترجاع عبر الوسائط ومتعدد الوسائط: التوسع خارج استعلامات النص. هل يمكن توليد مقاطع صوتية اصطناعية (مثل "شغل شيئًا يبدو مثل هذا") أو لوحات مزاج بصرية من البيانات الوصفية لبدء البحث الصوتي أو المرئي؟
  • التوليد الاصطناعي الشخصي: الانتقال من الاستعلامات الاصطناعية الموحدة إلى توليد استعلامات مشروطة بملفات المستخدمين الفردية. على سبيل المثال، لمستخدم يستمع إلى بودكاستات تاريخية، قم بتوليد استعلامات كتب صوتية مثل "سير ذاتية تاريخية مع بحث عميق" بدلاً من الاستعلامات العامة.
  • التوليف الديناميكي والتكيفي: بدلاً من التوليد الدفعي الثابت، إنشاء نظام حيث يتكيف نموذج توليد الاستعلامات الاصطناعية باستمرار بناءً على الاستعلامات الاصطناعية التي تؤدي بالفعل إلى مشاركة المستخدم، مما يخلق حلقة تحسين ذاتي.
  • التخفيف من التحيز الاصطناعي: اتجاه بحث رئيسي هو تطوير طرق لمراجعة وضمان تنوع وإنصاف الاستعلامات المُولدة بواسطة نماذج اللغة الكبيرة لمنع تضخيم التحيزات المجتمعية أو التحيزات في الفهرس خلال عملية الاكتشاف. ستكون التقنيات من أبحاث الإنصاف الخوارزمي حاسمة هنا.
  • التطبيق في البحث المؤسسي: هذه الطريقة قابلة للتطبيق مباشرة على محركات البحث الداخلية للشركات لمستودعات المستندات الجديدة، قواعد المعرفة، أو فهارس المنتجات، حيث يكون سلوك البحث الأولي للمستخدم غير معروف.
تكمن الحدود في جعل عملية التوليد الاصطناعي أكثر ديناميكية، وتخصيصًا، وخاضعة للمساءلة.

8. المراجع

  1. Azad, H. K., & Deepak, A. (2019). Query expansion techniques for information retrieval: A survey. Information Processing & Management, 56(5), 1698-1735.
  2. Jiang, J. Y., et al. (2021). Understanding and predicting user search mindset. ACM Transactions on Information Systems.
  3. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). [مصدر خارجي - CycleGAN]
  4. Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). On the Risks and Challenges of Synthetic Data. [مصدر خارجي - معهد بحثي]
  5. Palumbo, E., Penha, G., Liu, A., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. In Proceedings of the EARL Workshop@RecSys.
  6. Bennett, P. N., et al. (2012). Modeling the impact of short- and long-term behavior on search personalization. In Proceedings of the 35th international ACM SIGIR conference.