J-MAC: پیکره‌ی صوتی چندگوینده‌ی ژاپنی برای کتاب‌های صوتی در سنتز گفتار

1. مقدمه

این مقاله J-MAC (پیکره‌ی صوتی چندگوینده‌ی ژاپنی برای کتاب‌های صوتی) را معرفی می‌کند؛ یک پیکره‌ی گفتاری نوآورانه که برای پیشبرد پژوهش در سنتز گفتار بیانی و آگاه از بافت، به ویژه برای کاربردهای کتاب صوتی طراحی شده است. نویسندگان استدلال می‌کنند که اگرچه TTS سبک خواندن به کیفیتی نزدیک به انسان دست یافته است، اما مرز بعدی شامل مدیریت بافت‌های پیچیده و فراجمله‌ای، بیان‌گری خاص گوینده و جریان روایت است — که همگی برای تولید کتاب صوتی جذاب حیاتی هستند. فقدان پیکره‌های باکیفیت و چندگوینده برای کتاب‌های صوتی یک گلوگاه مهم بوده است. J-MAC با ارائه‌ی روشی برای ساخت خودکار چنین پیکره‌ای از کتاب‌های صوتی تجاری موجود که توسط راویان حرفه‌ای خوانده شده‌اند، به این مسئله می‌پردازد و مجموعه داده حاصل را متن‌باز می‌سازد.

2. ساخت پیکره

خط لوله ساخت، یک فرآیند سه مرحله‌ای است که برای خودکارسازی و استقلال از زبان طراحی شده است.

2.1 جمع‌آوری داده

کتاب‌های صوتی بر اساس دو معیار اصلی انتخاب می‌شوند: ۱) در دسترس بودن متن مرجع دقیق (ترجیحاً رمان‌های خارج از حق تکثیر برای جلوگیری از خطاهای ASR روی موجودیت‌های نام‌دار)، و ۲) وجود نسخه‌های متعدد روایت شده توسط گویندگان حرفه‌ای مختلف برای ثبت سبک‌های بیان‌گر متنوع. این امر تنوع گوینده را بر حجم صرف داده از یک گوینده واحد اولویت می‌دهد.

2.2 پاکسازی و هم‌ترازی داده

صدای خام تحت پردازش قرار می‌گیرد تا بخش‌های گفتاری تمیز استخراج شده و دقیقاً با متن متناظر هم‌تراز شوند. این شامل جداسازی منبع، هم‌ترازی درشت با استفاده از طبقه‌بندی زمانی اتصال‌گرا (CTC)، و پالایش ریزدانه با استفاده از آشکارسازی فعالیت صوتی (VAD) است.

3. روش‌شناسی فنی

3.1 جداسازی آواز-ساز

برای جداسازی گفتار تمیز از موسیقی زمینه یا جلوه‌های صوتی احتمالی در تولیدات کتاب صوتی، از یک مدل جداسازی منبع (مانند مدل‌های مبتنی بر خوشه‌بندی عمیق یا Conv-TasNet) استفاده می‌شود. این گام برای به دست آوردن داده آموزشی با وفاداری بالا برای مدل‌های سنتز حیاتی است.

3.2 هم‌ترازی مبتنی بر CTC

یک مدل ASR آموزش‌دیده با CTC، یک هم‌ترازی اولیه و تقریبی بین شکل موج صوتی و دنباله متن فراهم می‌کند. تابع زیان CTC $\mathcal{L}_{CTC} = -\log P(\mathbf{y}|\mathbf{x})$، که در آن $\mathbf{x}$ دنباله ورودی و $\mathbf{y}$ دنباله برچسب هدف است، امکان هم‌ترازی بدون تقسیم‌بندی اجباری را فراهم می‌کند.

3.3 پالایش مبتنی بر VAD

هم‌ترازی‌های درشت CTC با استفاده از یک سیستم آشکارسازی فعالیت صوتی پالایش می‌شوند. این گام بخش‌های غیرگفتاری (مکث‌ها، نفس‌ها) را حذف کرده و مرزها را تنظیم می‌کند تا اطمینان حاصل شود که هر بخش صوتی دقیقاً با یک واحد متن (مانند یک جمله) مطابقت دارد و دقت جفت‌های متن-صدا را بهبود می‌بخشد.

4. نتایج آزمایشی و ارزیابی

نویسندگان ارزیابی‌های سنتز گفتار کتاب صوتی را با استفاده از مدل‌های آموزش‌دیده روی J-MAC انجام دادند. یافته‌های کلیدی شامل موارد زیر است:

تعمیم بهبود مدل: بهبودهای اعمال شده به معماری سنتز، طبیعی‌بودن گفتار خروجی را در بین گویندگان مختلف پیکره افزایش داد.
عوامل درهم‌تنیده: طبیعی‌بودن درک شده به شدت تحت تأثیر تعامل پیچیده‌ای بین روش سنتز، ویژگی‌های صوتی گوینده و محتوای خود کتاب قرار داشت. جداسازی این عوامل همچنان یک چالش است.

توضیح نمودار (ضمنی): یک نمودار میل‌های فرضی، نمرات میانگین نظر (MOS) برای طبیعی‌بودن را در سیستم‌های سنتز مختلف (مانند Tacotron2، FastSpeech2) و گویندگان مختلف J-MAC نشان می‌داد. این نمودار احتمالاً واریانس بین گویندگان برای یک مدل یکسان و روندهای بهبود ثابت برای مدل‌های پیشرفته در تمام گویندگان را نشان می‌داد و دو بینش کلیدی را به صورت بصری تأیید می‌کرد.

5. بینش‌های کلیدی و بحث

J-MAC با موفقیت یک خط لوله مقیاس‌پذیر و خودکار برای ایجاد پیکره‌های گفتار بیانی فراهم می‌کند.
طرح چندگوینده و کتاب یکسان، یک نقطه قوت منحصر به فرد برای مطالعه هویت گوینده و بیان‌گری است.
ارزیابی تأکید می‌کند که مدل‌های آینده TTS کتاب صوتی باید ماهیت درهم‌تنیده محتوا، گوینده و سبک را در نظر بگیرند.

6. تحلیل اصیل: دیدگاه صنعت

بینش هسته‌ای: مقاله J-MAC صرفاً درباره یک مجموعه داده جدید نیست؛ یک حرکت استراتژیک برای تغییر پارادایم TTS از تولید جمله‌های مجزا به هوش روایی است. در حالی که مدل‌هایی مانند WaveNet و Tacotron بر وفاداری غلبه کردند، اما عمدتاً ساختار کلان گفتار را نادیده گرفتند. J-MAC با فراهم کردن روایت‌های موازی از چندین گوینده حرفه‌ای، بستر لازم برای مدل‌هاست تا نه تنها نحوه صحبت کردن، بلکه نحوه اجرای یک داستان را بیاموزند. این با روند گسترده‌تر صنعت که در آثار دیگری مانند مقاله Google AudioLM دیده می‌شود هم‌سو است که به دنبال مدل‌سازی صدا به روشی آگاه از بافت و سلسله‌مراتبی است.

جریان منطقی: نویسندگان به درستی گلوگاه داده را شناسایی می‌کنند. راه‌حل آن‌ها عمل‌گرایانه است: استخراج تولیدات هنری باکیفیت موجود (کتاب‌های صوتی) به جای سفارش ضبط‌های جدید. خط لوله فنی هوشمندانه است — با بهره‌گیری از فناوری‌های بالغ (CTC، VAD) در ترکیبی نوآورانه برای یک هدف خاص و باارزش. سپس ارزیابی از این منبع جدید برای آشکارسازی یک یافته حیاتی و غیربدیهی استفاده می‌کند: در سنتز بیانی، شما نمی‌توانید برای یک «بهترین مدل» مستقل از گوینده بهینه‌سازی کنید. عملکرد به طور جدایی‌ناپذیری با هویت گوینده مرتبط است.

نقاط قوت و ضعف: نقطه قوت اصلی، اصل طراحی پیکره است. انتخاب گویندگان حرفه‌ای و مقایسه‌های متن یکسان برای مطالعات کنترل‌پذیری درخشان است. خط لوله خودکار یک مشارکت مهم در تکرارپذیری است. با این حال، ضعف مقاله، ارزیابی اولیه آن است. بینش «عوامل درهم‌تنیده» حیاتی است اما صرفاً بیان شده است. یک تحلیل عمیق‌تر، شاید با استفاده از تکنیک‌های ادبیات انتقال سبک (مانند معماری‌های کدگذار در توکن‌های سبک سراسری یا روش‌های جداسازی بررسی شده در CycleGAN-VC) مورد نیاز است. چه میزان از واریانس به دلیل طنین آکوستیک در مقابل سبک آهنگ گفتار در مقابل تفسیر معنایی است؟ مقاله در را باز می‌کند اما از آن عبور نمی‌کند.

بینش‌های قابل اجرا: برای پژوهشگران: از J-MAC برای معیارسنجی تکنیک‌های جداسازی استفاده کنید. برای تیم‌های محصول: این کار نشان می‌دهد که نسل بعدی هوش مصنوعی صوتی برای پادکست‌ها، تبلیغات و کتاب‌ها از داده‌های بیشتر سبک خواندن، بلکه از داده‌های عملکرد روایی به دست خواهد آمد. شروع به گردآوری مجموعه داده‌های بیانی و بلندمدت کنید. خود روش‌شناسی قابل صدور است — تصور کنید یک «J-MAC برای پادکست‌ها» یا «J-MAC برای تریلرهای فیلم». درس اصلی این است که در عصر مدل‌های پایه، ارزش استراتژیک یک مجموعه داده با ساختار منحصر به فرد و باکیفیت مانند J-MAC ممکن است بر ارزش هر معماری مدل منفردی که همراه آن منتشر می‌شود، برتری یابد.

7. جزئیات فنی و فرمول‌بندی ریاضی

فرآیند هم‌ترازی به الگوریتم پیش‌رو-پس‌رو CTC متکی است. با توجه به یک دنباله ورودی $\mathbf{x}$ به طول $T$ و یک دنباله هدف $\mathbf{l}$ به طول $L$، CTC با معرفی یک نشانه خالی ($\epsilon$) و اجازه تکرار، یک توزیع روی هم‌ترازی‌ها تعریف می‌کند. احتمال هدف، مجموع روی تمام هم‌ترازی‌های معتبر $\pi$ است:

$P(\mathbf{l} | \mathbf{x}) = \sum_{\pi \in \mathcal{B}^{-1}(\mathbf{l})} P(\pi | \mathbf{x})$

که در آن $\mathcal{B}$ تابعی است که نشانه‌های تکراری را فرو می‌ریزد و نشانه‌های خالی را حذف می‌کند. پالایش VAD را می‌توان به عنوان یک وظیفه تقسیم‌بندی فرمول‌بندی کرد، یافتن مرزهای $\{t_i\}$ که احتمال گفتار را درون بخش‌ها و غیرگفتار را بین آن‌ها بیشینه می‌کند، که اغلب با استفاده از ویژگی‌های مبتنی بر انرژی یا یک طبقه‌بند آموزش‌دیده انجام می‌شود.

8. چارچوب تحلیل: مطالعه موردی

سناریو: ارزیابی تأثیر سبک گوینده بر «جذابیت» درک شده در سنتز کتاب صوتی.

کاربرد چارچوب:

تقسیم‌بندی داده: دو گوینده حرفه‌ای (A و B) از J-MAC که یک فصل یکسان از یک رمان را روایت کرده‌اند، انتخاب شوند.
استخراج ویژگی: برای هر جمله در فصل، توصیفگرهای سطح پایین (LLD) مانند منحنی‌های زیروبمی، دینامیک انرژی و مدت مکث با استفاده از ابزارهایی مانند OpenSMILE یا Praat استخراج شوند. همچنین، بردارهای نهفته سبک سطح بالا با استفاده از یک مدل از پیش آموزش‌دیده مانند HuBERT استخراج شوند.
تحلیل مقایسه‌ای: تفاوت‌های آماری (مانند با استفاده از آزمون t یا واگرایی KL) بین توزیع‌های LLD برای گوینده A و گوینده B برای محتوای متنی یکسان محاسبه شود. این امر «اثر انگشت» آهنگ گفتار منحصر به فرد آن‌ها را کمّی می‌کند.
سنتز و ارزیابی: دو مدل TTS آموزش داده شوند: یکی روی داده‌های گوینده A، یکی روی داده‌های گوینده B. همان بخش رمان که در طول آموزش دیده نشده، سنتز شود. یک آزمون شنیداری انجام شود که در آن ارزیاب‌ها هر سنتز را از نظر «بیان‌گری» و «جذابیت روایی» امتیازدهی کنند.
همبستگی: تفاوت‌های عینی سبک (گام ۳) با نمرات ذهنی جذابیت (گام ۴) همبستگی داده شود. این چارچوب، که توسط ساختار J-MAC امکان‌پذیر شده است، می‌تواند مشخص کند کدام ویژگی‌های آکوستیک بیشترین سهم را در کیفیت عملکرد درک شده دارند.

این مطالعه موردی نشان می‌دهد که چگونه J-MAC تحلیل علی را تسهیل می‌کند و از همبستگی فراتر رفته و به درک بلوک‌های سازنده گفتار بیانی می‌پردازد.

9. کاربردهای آینده و مسیرهای پژوهشی

شبیه‌سازی و سفارشی‌سازی صوتی بیانی: داده چندگوینده‌ای J-MAC برای توسعه سیستم‌های انطباق صوتی کم‌نمونه یا صفرنمونه که می‌توانند سبک روایی یک گوینده را تقلید کنند، نه فقط طنین صدای او، ایده‌آل است.
یادگیری بازنمایی جداشده: کار آینده می‌تواند از J-MAC برای آموزش مدل‌هایی استفاده کند که محتوا، هویت گوینده و سبک بیانی را در فضاهای نهفته مجزا جدا می‌کنند و کنترل ریزدانه بر سنتز را ممکن می‌سازند.
سنتز کتاب صوتی بین‌زبانی: روش‌شناسی را می‌توان به زبان‌های دیگر اعمال کرد تا پیکره‌های مشابهی ساخته شوند و پژوهش درباره حفظ سبک بیانی در ترجمه یا دوبله را ممکن سازند.
خلق محتوای کمک‌شده با هوش مصنوعی: ادغام با مدل‌های زبانی بزرگ (LLM) می‌تواند به سیستم‌هایی منجر شود که داستان‌های کوتاه یا محتوای صوتی شخصی‌سازی شده را به سبک یک راوی خاص بنویسند و اجرا کنند.
ابزارهای دسترسی‌پذیری: تولید کتاب‌های صوتی باکیفیت و بیانی براساس تقاضا برای هر متن دیجیتال، که دسترسی کاربران کم‌بینا را به شدت گسترش می‌دهد.

10. منابع

J. Shen, et al., "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions," ICASSP, 2018.
A. Vaswani, et al., "Attention Is All You Need," NeurIPS, 2017.
Y. Ren, et al., "FastSpeech: Fast, Robust and Controllable Text to Speech," NeurIPS, 2019.
A. v. d. Oord, et al., "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499, 2016.
J.-Y. Zhu, et al., "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," ICCV, 2017. (CycleGAN)
Y. Wang, et al., "Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis," ICML, 2018.
Google AI, "AudioLM: A Language Modeling Approach to Audio Generation," Google Research Blog, 2022.
A. Graves, et al., "Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks," ICML, 2006.