1. مقدمه
این مقاله J-MAC (پیکرهی صوتی چندگویندهی ژاپنی برای کتابهای صوتی) را معرفی میکند؛ یک پیکرهی گفتاری نوآورانه که برای پیشبرد پژوهش در سنتز گفتار بیانی و آگاه از بافت، به ویژه برای کاربردهای کتاب صوتی طراحی شده است. نویسندگان استدلال میکنند که اگرچه TTS سبک خواندن به کیفیتی نزدیک به انسان دست یافته است، اما مرز بعدی شامل مدیریت بافتهای پیچیده و فراجملهای، بیانگری خاص گوینده و جریان روایت است — که همگی برای تولید کتاب صوتی جذاب حیاتی هستند. فقدان پیکرههای باکیفیت و چندگوینده برای کتابهای صوتی یک گلوگاه مهم بوده است. J-MAC با ارائهی روشی برای ساخت خودکار چنین پیکرهای از کتابهای صوتی تجاری موجود که توسط راویان حرفهای خوانده شدهاند، به این مسئله میپردازد و مجموعه داده حاصل را متنباز میسازد.
2. ساخت پیکره
خط لوله ساخت، یک فرآیند سه مرحلهای است که برای خودکارسازی و استقلال از زبان طراحی شده است.
2.1 جمعآوری داده
کتابهای صوتی بر اساس دو معیار اصلی انتخاب میشوند: ۱) در دسترس بودن متن مرجع دقیق (ترجیحاً رمانهای خارج از حق تکثیر برای جلوگیری از خطاهای ASR روی موجودیتهای نامدار)، و ۲) وجود نسخههای متعدد روایت شده توسط گویندگان حرفهای مختلف برای ثبت سبکهای بیانگر متنوع. این امر تنوع گوینده را بر حجم صرف داده از یک گوینده واحد اولویت میدهد.
2.2 پاکسازی و همترازی داده
صدای خام تحت پردازش قرار میگیرد تا بخشهای گفتاری تمیز استخراج شده و دقیقاً با متن متناظر همتراز شوند. این شامل جداسازی منبع، همترازی درشت با استفاده از طبقهبندی زمانی اتصالگرا (CTC)، و پالایش ریزدانه با استفاده از آشکارسازی فعالیت صوتی (VAD) است.
3. روششناسی فنی
3.1 جداسازی آواز-ساز
برای جداسازی گفتار تمیز از موسیقی زمینه یا جلوههای صوتی احتمالی در تولیدات کتاب صوتی، از یک مدل جداسازی منبع (مانند مدلهای مبتنی بر خوشهبندی عمیق یا Conv-TasNet) استفاده میشود. این گام برای به دست آوردن داده آموزشی با وفاداری بالا برای مدلهای سنتز حیاتی است.
3.2 همترازی مبتنی بر CTC
یک مدل ASR آموزشدیده با CTC، یک همترازی اولیه و تقریبی بین شکل موج صوتی و دنباله متن فراهم میکند. تابع زیان CTC $\mathcal{L}_{CTC} = -\log P(\mathbf{y}|\mathbf{x})$، که در آن $\mathbf{x}$ دنباله ورودی و $\mathbf{y}$ دنباله برچسب هدف است، امکان همترازی بدون تقسیمبندی اجباری را فراهم میکند.
3.3 پالایش مبتنی بر VAD
همترازیهای درشت CTC با استفاده از یک سیستم آشکارسازی فعالیت صوتی پالایش میشوند. این گام بخشهای غیرگفتاری (مکثها، نفسها) را حذف کرده و مرزها را تنظیم میکند تا اطمینان حاصل شود که هر بخش صوتی دقیقاً با یک واحد متن (مانند یک جمله) مطابقت دارد و دقت جفتهای متن-صدا را بهبود میبخشد.
4. نتایج آزمایشی و ارزیابی
نویسندگان ارزیابیهای سنتز گفتار کتاب صوتی را با استفاده از مدلهای آموزشدیده روی J-MAC انجام دادند. یافتههای کلیدی شامل موارد زیر است:
- تعمیم بهبود مدل: بهبودهای اعمال شده به معماری سنتز، طبیعیبودن گفتار خروجی را در بین گویندگان مختلف پیکره افزایش داد.
- عوامل درهمتنیده: طبیعیبودن درک شده به شدت تحت تأثیر تعامل پیچیدهای بین روش سنتز، ویژگیهای صوتی گوینده و محتوای خود کتاب قرار داشت. جداسازی این عوامل همچنان یک چالش است.
توضیح نمودار (ضمنی): یک نمودار میلهای فرضی، نمرات میانگین نظر (MOS) برای طبیعیبودن را در سیستمهای سنتز مختلف (مانند Tacotron2، FastSpeech2) و گویندگان مختلف J-MAC نشان میداد. این نمودار احتمالاً واریانس بین گویندگان برای یک مدل یکسان و روندهای بهبود ثابت برای مدلهای پیشرفته در تمام گویندگان را نشان میداد و دو بینش کلیدی را به صورت بصری تأیید میکرد.
5. بینشهای کلیدی و بحث
- J-MAC با موفقیت یک خط لوله مقیاسپذیر و خودکار برای ایجاد پیکرههای گفتار بیانی فراهم میکند.
- طرح چندگوینده و کتاب یکسان، یک نقطه قوت منحصر به فرد برای مطالعه هویت گوینده و بیانگری است.
- ارزیابی تأکید میکند که مدلهای آینده TTS کتاب صوتی باید ماهیت درهمتنیده محتوا، گوینده و سبک را در نظر بگیرند.
6. تحلیل اصیل: دیدگاه صنعت
بینش هستهای: مقاله J-MAC صرفاً درباره یک مجموعه داده جدید نیست؛ یک حرکت استراتژیک برای تغییر پارادایم TTS از تولید جملههای مجزا به هوش روایی است. در حالی که مدلهایی مانند WaveNet و Tacotron بر وفاداری غلبه کردند، اما عمدتاً ساختار کلان گفتار را نادیده گرفتند. J-MAC با فراهم کردن روایتهای موازی از چندین گوینده حرفهای، بستر لازم برای مدلهاست تا نه تنها نحوه صحبت کردن، بلکه نحوه اجرای یک داستان را بیاموزند. این با روند گستردهتر صنعت که در آثار دیگری مانند مقاله Google AudioLM دیده میشود همسو است که به دنبال مدلسازی صدا به روشی آگاه از بافت و سلسلهمراتبی است.
جریان منطقی: نویسندگان به درستی گلوگاه داده را شناسایی میکنند. راهحل آنها عملگرایانه است: استخراج تولیدات هنری باکیفیت موجود (کتابهای صوتی) به جای سفارش ضبطهای جدید. خط لوله فنی هوشمندانه است — با بهرهگیری از فناوریهای بالغ (CTC، VAD) در ترکیبی نوآورانه برای یک هدف خاص و باارزش. سپس ارزیابی از این منبع جدید برای آشکارسازی یک یافته حیاتی و غیربدیهی استفاده میکند: در سنتز بیانی، شما نمیتوانید برای یک «بهترین مدل» مستقل از گوینده بهینهسازی کنید. عملکرد به طور جداییناپذیری با هویت گوینده مرتبط است.
نقاط قوت و ضعف: نقطه قوت اصلی، اصل طراحی پیکره است. انتخاب گویندگان حرفهای و مقایسههای متن یکسان برای مطالعات کنترلپذیری درخشان است. خط لوله خودکار یک مشارکت مهم در تکرارپذیری است. با این حال، ضعف مقاله، ارزیابی اولیه آن است. بینش «عوامل درهمتنیده» حیاتی است اما صرفاً بیان شده است. یک تحلیل عمیقتر، شاید با استفاده از تکنیکهای ادبیات انتقال سبک (مانند معماریهای کدگذار در توکنهای سبک سراسری یا روشهای جداسازی بررسی شده در CycleGAN-VC) مورد نیاز است. چه میزان از واریانس به دلیل طنین آکوستیک در مقابل سبک آهنگ گفتار در مقابل تفسیر معنایی است؟ مقاله در را باز میکند اما از آن عبور نمیکند.
بینشهای قابل اجرا: برای پژوهشگران: از J-MAC برای معیارسنجی تکنیکهای جداسازی استفاده کنید. برای تیمهای محصول: این کار نشان میدهد که نسل بعدی هوش مصنوعی صوتی برای پادکستها، تبلیغات و کتابها از دادههای بیشتر سبک خواندن، بلکه از دادههای عملکرد روایی به دست خواهد آمد. شروع به گردآوری مجموعه دادههای بیانی و بلندمدت کنید. خود روششناسی قابل صدور است — تصور کنید یک «J-MAC برای پادکستها» یا «J-MAC برای تریلرهای فیلم». درس اصلی این است که در عصر مدلهای پایه، ارزش استراتژیک یک مجموعه داده با ساختار منحصر به فرد و باکیفیت مانند J-MAC ممکن است بر ارزش هر معماری مدل منفردی که همراه آن منتشر میشود، برتری یابد.
7. جزئیات فنی و فرمولبندی ریاضی
فرآیند همترازی به الگوریتم پیشرو-پسرو CTC متکی است. با توجه به یک دنباله ورودی $\mathbf{x}$ به طول $T$ و یک دنباله هدف $\mathbf{l}$ به طول $L$، CTC با معرفی یک نشانه خالی ($\epsilon$) و اجازه تکرار، یک توزیع روی همترازیها تعریف میکند. احتمال هدف، مجموع روی تمام همترازیهای معتبر $\pi$ است:
$P(\mathbf{l} | \mathbf{x}) = \sum_{\pi \in \mathcal{B}^{-1}(\mathbf{l})} P(\pi | \mathbf{x})$
که در آن $\mathcal{B}$ تابعی است که نشانههای تکراری را فرو میریزد و نشانههای خالی را حذف میکند. پالایش VAD را میتوان به عنوان یک وظیفه تقسیمبندی فرمولبندی کرد، یافتن مرزهای $\{t_i\}$ که احتمال گفتار را درون بخشها و غیرگفتار را بین آنها بیشینه میکند، که اغلب با استفاده از ویژگیهای مبتنی بر انرژی یا یک طبقهبند آموزشدیده انجام میشود.
8. چارچوب تحلیل: مطالعه موردی
سناریو: ارزیابی تأثیر سبک گوینده بر «جذابیت» درک شده در سنتز کتاب صوتی.
کاربرد چارچوب:
- تقسیمبندی داده: دو گوینده حرفهای (A و B) از J-MAC که یک فصل یکسان از یک رمان را روایت کردهاند، انتخاب شوند.
- استخراج ویژگی: برای هر جمله در فصل، توصیفگرهای سطح پایین (LLD) مانند منحنیهای زیروبمی، دینامیک انرژی و مدت مکث با استفاده از ابزارهایی مانند OpenSMILE یا Praat استخراج شوند. همچنین، بردارهای نهفته سبک سطح بالا با استفاده از یک مدل از پیش آموزشدیده مانند HuBERT استخراج شوند.
- تحلیل مقایسهای: تفاوتهای آماری (مانند با استفاده از آزمون t یا واگرایی KL) بین توزیعهای LLD برای گوینده A و گوینده B برای محتوای متنی یکسان محاسبه شود. این امر «اثر انگشت» آهنگ گفتار منحصر به فرد آنها را کمّی میکند.
- سنتز و ارزیابی: دو مدل TTS آموزش داده شوند: یکی روی دادههای گوینده A، یکی روی دادههای گوینده B. همان بخش رمان که در طول آموزش دیده نشده، سنتز شود. یک آزمون شنیداری انجام شود که در آن ارزیابها هر سنتز را از نظر «بیانگری» و «جذابیت روایی» امتیازدهی کنند.
- همبستگی: تفاوتهای عینی سبک (گام ۳) با نمرات ذهنی جذابیت (گام ۴) همبستگی داده شود. این چارچوب، که توسط ساختار J-MAC امکانپذیر شده است، میتواند مشخص کند کدام ویژگیهای آکوستیک بیشترین سهم را در کیفیت عملکرد درک شده دارند.
9. کاربردهای آینده و مسیرهای پژوهشی
- شبیهسازی و سفارشیسازی صوتی بیانی: داده چندگویندهای J-MAC برای توسعه سیستمهای انطباق صوتی کمنمونه یا صفرنمونه که میتوانند سبک روایی یک گوینده را تقلید کنند، نه فقط طنین صدای او، ایدهآل است.
- یادگیری بازنمایی جداشده: کار آینده میتواند از J-MAC برای آموزش مدلهایی استفاده کند که محتوا، هویت گوینده و سبک بیانی را در فضاهای نهفته مجزا جدا میکنند و کنترل ریزدانه بر سنتز را ممکن میسازند.
- سنتز کتاب صوتی بینزبانی: روششناسی را میتوان به زبانهای دیگر اعمال کرد تا پیکرههای مشابهی ساخته شوند و پژوهش درباره حفظ سبک بیانی در ترجمه یا دوبله را ممکن سازند.
- خلق محتوای کمکشده با هوش مصنوعی: ادغام با مدلهای زبانی بزرگ (LLM) میتواند به سیستمهایی منجر شود که داستانهای کوتاه یا محتوای صوتی شخصیسازی شده را به سبک یک راوی خاص بنویسند و اجرا کنند.
- ابزارهای دسترسیپذیری: تولید کتابهای صوتی باکیفیت و بیانی براساس تقاضا برای هر متن دیجیتال، که دسترسی کاربران کمبینا را به شدت گسترش میدهد.
10. منابع
- J. Shen, et al., "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions," ICASSP, 2018.
- A. Vaswani, et al., "Attention Is All You Need," NeurIPS, 2017.
- Y. Ren, et al., "FastSpeech: Fast, Robust and Controllable Text to Speech," NeurIPS, 2019.
- A. v. d. Oord, et al., "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499, 2016.
- J.-Y. Zhu, et al., "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," ICCV, 2017. (CycleGAN)
- Y. Wang, et al., "Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis," ICML, 2018.
- Google AI, "AudioLM: A Language Modeling Approach to Audio Generation," Google Research Blog, 2022.
- A. Graves, et al., "Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks," ICML, 2006.