J-MAC: مجموعة بيانات صوتية يابانية متعددة المتحدثين لتوليف الكلام

1. المقدمة

تقدم الورقة البحثية J-MAC (مجموعة البيانات الصوتية اليابانية متعددة المتحدثين للكتب الصوتية)، وهي مجموعة بيانات كلامية جديدة مصممة لتطوير البحث في توليف الكلام التعبيري الواعي بالسياق، خصيصًا لتطبيقات الكتب الصوتية. يرى المؤلفون أنه بينما حقق توليف الكلام من النص (TTS) بأسلوب القراءة جودة قريبة من البشرية، فإن التحدي القادم يتضمن التعامل مع السياقات المعقدة عبر الجمل، والتعبيرية الخاصة بكل متحدث، وتدفق السرد – وكلها عوامل حاسمة لتوليف كتب صوتية مقنعة. كان نقص مجموعات البيانات الصوتية عالية الجودة ومتعددة المتحدثين للكتب الصوتية عائقًا كبيرًا. يتصدى J-MAC لهذه المشكلة من خلال تقديم طريقة لبناء مثل هذه المجموعة تلقائيًا من الكتب الصوتية التجارية المتاحة والتي يقرؤها راوون محترفون، مما يجعل مجموعة البيانات الناتجة مفتوحة المصدر.

2. بناء مجموعة البيانات

خط أنابيب البناء هو عملية من ثلاث مراحل مصممة للأتمتة والاستقلالية عن اللغة.

2.1 جمع البيانات

يتم اختيار الكتب الصوتية بناءً على معيارين أساسيين: 1) توفر نص مرجعي دقيق (يفضل أن يكون من الروايات خارج حقوق النشر لتجنب أخطاء التعرف التلقائي على الكلام ASR في الكيانات المسماة)، و 2) وجود نسخ متعددة يرويها متحدثون محترفون مختلفون لالتقاط أنماط تعبيرية متنوعة. هذا يعطي أولوية لتنوع المتحدثين على مجرد حجم البيانات من متحدث واحد.

2.2 تنقية البيانات ومطابقتها

يخضع الصوت الخام للمعالجة لاستخراج مقاطع الكلام النظيفة ومطابقتها بدقة مع النص المقابل. يتضمن ذلك فصل المصدر، والمطابقة التقريبية باستخدام التصنيف الزمني الاتصالي (CTC)، والتنقيح الدقيق باستخدام كشف النشاط الصوتي (VAD).

3. المنهجية التقنية

3.1 فصل الصوت عن الموسيقى التصويرية

لعزل الكلام النقي من الموسيقى الخلفية أو المؤثرات الصوتية المحتملة في إنتاجات الكتب الصوتية، يتم استخدام نموذج فصل المصدر (مثل النماذج القائمة على التجميع العميق أو Conv-TasNet). هذه الخطوة حاسمة للحصول على بيانات تدريب عالية الدقة لنماذج التوليف.

3.2 المطابقة المعتمدة على CTC

يوفر نموذج ASR المدرب باستخدام CTC مطابقة أولية تقريبية بين الموجة الصوتية وتسلسل النص. تسمح دالة الخسارة CTC $\mathcal{L}_{CTC} = -\log P(\mathbf{y}|\mathbf{x})$، حيث $\mathbf{x}$ هو تسلسل الإدخال و $\mathbf{y}$ هو تسلسل التسميات المستهدف، بإجراء المطابقة دون تجزئة قسرية.

3.3 التنقيح المعتمد على VAD

يتم تنقيح المطابقات التقريبية لـ CTC باستخدام نظام كشف النشاط الصوتي. تزيل هذه الخطوة المقاطع غير الكلامية (التوقفات، الأنفاس) وتضبط الحدود لضمان أن كل مقطع صوتي يتوافق بدقة مع وحدة نصية (مثل جملة)، مما يحسن دقة أزواج النص والصوت.

4. النتائج التجريبية والتقييم

أجرى المؤلفون تقييمات لتوليف كلام الكتب الصوتية باستخدام نماذج مدربة على J-MAC. تشمل النتائج الرئيسية:

تعميم تحسين النموذج: أدت التحسينات على بنية التوليف إلى تحسين طبيعية الكلام الناتج عبر مختلف المتحدثين في مجموعة البيانات.
العوامل المتشابكة: تأثرت الطبيعة المدركة للكلام بشدة بتفاعل معقد بين طريقة التوليف، وخصائص صوت المتحدث، ومحتوى الكتاب نفسه. يظل فصل هذه العوامل تحديًا.

وصف الرسم البياني (ضمني): سيظهر رسم بياني افتراضي بأعمدة متوسط درجات الرأي (MOS) للطبيعية عبر أنظمة توليف مختلفة (مثل Tacotron2، FastSpeech2) ومتحدثين مختلفين من J-MAC. من المرجح أن يظهر الرسم البياني تباينًا عبر المتحدثين لنفس النموذج واتجاهات تحسن متسقة للنماذج المتقدمة عبر جميع المتحدثين، مما يؤكد بصريًا الرؤيتين الرئيسيتين.

5. الرؤى الأساسية والنقاش

يوفر J-MAC بنجاح خط أنابيب آلي وقابل للتطوير لإنشاء مجموعات بيانات كلامية تعبيرية.
تصميم متعدد المتحدثين لنفس الكتاب هو نقطة قوة فريدة لدراسة هوية المتحدث والتعبيرية.
يؤكد التقييم على أن نماذج TTS المستقبلية للكتب الصوتية يجب أن تأخذ في الاعتبار الطبيعة المتشابكة للمحتوى والمتحدث والأسلوب.

6. التحليل الأصلي: منظور صناعي

الرؤية الأساسية: ورقة J-MAC ليست مجرد مجموعة بيانات جديدة؛ إنها خطوة استراتيجية لتحويل نموذج TTS من توليد العبارات المنعزلة إلى الذكاء السردي. بينما قهرت نماذج مثل WaveNet و Tacotron مسألة الدقة، إلا أنها تجاهلت إلى حد كبير البنية الكلية للكلام. يوفر J-MAC، من خلال تقديم سرديات متوازية من متحدثين محترفين متعددين، الركيزة الضرورية للنماذج لتتعلم ليس فقط كيفية التحدث، ولكن كيفية أداء قصة. يتوافق هذا مع الاتجاه الصناعي الأوسع كما يظهر في أعمال مثل ورقة Google AudioLM، التي تسعى إلى نمذجة الصوت بطريقة واعية بالسياق وهيكلية.

التدفق المنطقي: يحدد المؤلفون بشكل صحيح عائق البيانات. حلتهم عملية: استخراج الإنتاجات الفنية عالية الجودة الموجودة (الكتب الصوتية) بدلاً من تكليف تسجيلات جديدة. خط الأنابيب التقني ذكي – حيث يستفيد من تقنيات ناضجة (CTC، VAD) في توليفة جديدة لهدف محدد وقيم. ثم يستخدم التقييم هذا المورد الجديد للكشف عن نتيجة حاسمة وغير واضحة: في التوليف التعبيري، لا يمكنك التحسين من أجل "أفضل نموذج" محايد للمتحدث. الأداء مرتبط بشكل لا ينفصم بهوية المتحدث.

نقاط القوة والضعف: القوة الرئيسية هي مبدأ تصميم مجموعة البيانات. اختيار المتحدثين المحترفين ومقارنات النص نفسه رائع لدراسات إمكانية التحكم. خط الأنابيب الآلي هو إسهام كبير في قابلية التكرار. ومع ذلك، فإن ضعف الورقة هو تقييمها الأولي. رؤية "العوامل المتشابكة" حاسمة ولكنها مذكورة فقط. هناك حاجة إلى تحليل أعمق، ربما باستخدام تقنيات من أدبيات نقل النمط (مثل بنيات المُشفر في Global Style Tokens أو طرق الفصل المستكشفة في CycleGAN-VC). كم مقدار التباين بسبب النغمة الصوتية مقابل أسلوب التنغيم مقابل التفسير الدلالي؟ تفتح الورقة الباب لكنها لا تمر عبره.

رؤى قابلة للتنفيذ: للباحثين: استخدم J-MAC كمعيار لتقنيات الفصل. لفرق المنتجات: تشير هذه الأعمال إلى أن الجيل القادم من ذكاء الصوت للبودكاست والإعلانات والكتب لن يأتي من المزيد من بيانات أسلوب القراءة، ولكن من بيانات أداء السرد. ابدأ في تنظيم مجموعات بيانات تعبيرية طويلة المدى. المنهجية نفسها قابلة للتصدير – تخيل "J-MAC للبودكاست" أو "J-MAC للتعليقات الدعائية للأفلام". الدرس الأساسي هو أنه في عصر النماذج الأساسية، قد تتجاوز القيمة الاستراتيجية لمجموعة بيانات عالية الجودة وذات بنية فريدة مثل J-MAC قيمة أي بنية نموذج فردي تنشر معها.

7. التفاصيل التقنية والصياغة الرياضية

تعتمد عملية المطابقة على خوارزمية CTC الأمامية-الخلفية. بالنظر إلى تسلسل إدخال $\mathbf{x}$ بطول $T$ وتسلسل هدف $\mathbf{l}$ بطول $L$، يحدد CTC توزيعًا على المحاذاة عن طريق إدخال رمز فارغ ($\epsilon$) والسماح بالتكرارات. احتمال الهدف هو مجموع جميع المحاذيات الصالحة $\pi$:

$P(\mathbf{l} | \mathbf{x}) = \sum_{\pi \in \mathcal{B}^{-1}(\mathbf{l})} P(\pi | \mathbf{x})$

حيث $\mathcal{B}$ هي الدالة التي تدمج الرموز المكررة وتزيل الفراغات. يمكن صياغة تنقيح VAD كعملية تجزئة، للعثور على الحدود $\{t_i\}$ التي تعظم احتمالية الكلام داخل المقاطع وعدم الكلام بينها، غالبًا باستخدام ميزات قائمة على الطاقة أو مصنف مدرب.

8. إطار التحليل: دراسة حالة

السيناريو: تقييم تأثير أسلوب المتحدث على "التفاعل" المدرك في توليف الكتب الصوتية.

تطبيق الإطار:

تقسيم البيانات: خذ متحدثين محترفين (A & B) من J-MAC رويا نفس الفصل من رواية.
استخراج الميزات: لكل عبارة في الفصل، استخرج واصفات منخفضة المستوى (LLDs) مثل منحنيات النبرة، وديناميكيات الطاقة، ومدة التوقفات باستخدام أدوات مثل OpenSMILE أو Praat. استخرج أيضًا تمثيلات نمط عالية المستوى باستخدام نموذج مدرب مسبقًا مثل HuBERT.
التحليل المقارن: احسب الفروق الإحصائية (مثل استخدام اختبارات t أو تباعد KL) بين توزيعات LLDs للمتحدث A والمتحدث B لنفس المحتوى النصي. هذا يقيس "بصمة" التنغيم الفريدة لكل منهما.
التوليف والتقييم: درب نموذجين TTS: واحد على بيانات المتحدث A، والآخر على بيانات المتحدث B. ولّف نفس مقطع الرواية الذي لم يُرَ أثناء التدريب. أجرِ اختبار استماع حيث يقيم المقيّمون كل توليف من حيث "التعبيرية" و"تفاعل السرد".
الارتباط: اربط الفروق الموضوعية في الأسلوب (الخطوة 3) بالدرجات الذاتية للتفاعل (الخطوة 4). يمكن لهذا الإطار، الممكن بفضل بنية J-MAC، أن يعزل أي الميزات الصوتية تساهم أكثر في جودة الأداء المدركة.

توضح دراسة الحالة هذه كيف يسهل J-MAC التحليل السببي، متجاوزًا الارتباط لفهم اللبنات الأساسية للكلام التعبيري.

9. التطبيقات المستقبلية واتجاهات البحث

استنساخ الصوت التعبيري والتخصيص: بيانات J-MAC متعددة المتحدثين مثالية لتطوير أنظمة تكيف صوتي قليلة العينات أو بدون عينات يمكنها محاكاة أسلوب سرد المتحدث، وليس فقط نغمته.
تعلم التمثيل المفصول: يمكن للعمل المستقبلي استخدام J-MAC لتدريب نماذج تفصل المحتوى، وهوية المتحدث، والأسلوب التعبيري في مساحات كامنة متميزة، مما يتيح تحكمًا دقيقًا في التوليف.
توليف الكتب الصوتية عبر اللغات: يمكن تطبيق المنهجية على لغات أخرى لبناء مجموعات بيانات مماثلة، مما يتيح البحث حول الحفاظ على الأسلوب التعبيري في الترجمة أو الدبلجة.
إنشاء المحتوى بمساعدة الذكاء الاصطناعي: يمكن أن يؤدي التكامل مع النماذج اللغوية الكبيرة (LLMs) إلى أنظمة تكتب وتؤدي قصصًا قصيرة أو محتوى صوتي مخصص بأسلوب راوٍ محدد.
أدوات إمكانية الوصول: توليد كتب صوتية تعبيرية عالية الجودة عند الطلب لأي نص رقمي، مما يوسع بشكل كبير الوصول للمستخدمين ضعاف البصر.

10. المراجع

J. Shen, et al., "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions," ICASSP, 2018.
A. Vaswani, et al., "Attention Is All You Need," NeurIPS, 2017.
Y. Ren, et al., "FastSpeech: Fast, Robust and Controllable Text to Speech," NeurIPS, 2019.
A. v. d. Oord, et al., "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499, 2016.
J.-Y. Zhu, et al., "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," ICCV, 2017. (CycleGAN)
Y. Wang, et al., "Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis," ICML, 2018.
Google AI, "AudioLM: A Language Modeling Approach to Audio Generation," Google Research Blog, 2022.
A. Graves, et al., "Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks," ICML, 2006.