1. مقدمه
این مقاله J-MAC (پیکرهی صوتی چندگویندهی ژاپنی برای کتابهای صوتی) را معرفی میکند؛ یک پیکرهی گفتاری نوآورانه که برای پیشبرد پژوهش در سنتز متن به گفتار (TTS) بیانی و آگاه از بافت، به ویژه برای کاربردهای کتاب صوتی طراحی شده است. نویسندگان یک شکاف حیاتی در پژوهشهای کنونی TTS را شناسایی میکنند: در حالی که سنتز با سبک خوانش با وفاداری بالا تقریباً حل شده است، این حوزه به سمت وظایف پیچیدهتری در حال حرکت است که نیازمند انسجام فراجملهای، بیان ظریف و مدلسازی سبک خاص گوینده است — همه از ویژگیهای روایت حرفهای کتاب صوتی. J-MAC با ارائه یک پیکرهی چندگوینده مشتق شده از کتابهای صوتی تجاری خوانده شده توسط راویان حرفهای، که از طریق یک خط لوله خودکار و مستقل از زبان پردازش شده است، به این نیاز پاسخ میدهد.
2. ساخت پیکره
ساخت J-MAC یک فرآیند چندمرحلهای و خودکار است که برای استخراج جفتهای گفتار-متن همتراز و با کیفیت بالا از محصولات خام کتاب صوتی طراحی شده است.
2.1 جمعآوری داده
نویسندگان دو معیار کلیدی را برای انتخاب منبع در اولویت قرار دادند:
- دسترسی به متن مرجع: استفاده از رمانهای فاقد حق تکثیر با متن آزادانه در دسترس، برای اجتناب از خطاهای بازشناسی گفتار خودکار (ASR) روی موجودیتهای نامدار ادبی پیچیده.
- نسخههای چندگوینده: جستجوی فعال راویان حرفهای مختلف که یک کتاب واحد را میخوانند، برای ثبت سبکهای تفسیری خاص هر گوینده، که ارزشمندتر از جمعآوری کتابهای بیشتر از یک گوینده واحد تلقی میشود.
متون ساختاریافته از ماده مرجع ایجاد شدند تا بافت سلسلهمراتبی و فراجملهای حفظ شود، که برای مدلسازی جریان روایت حیاتی است.
2.2 پاکسازی و همترازی داده
مشارکت فنی اصلی، خط لوله خودکار برای پالایش دادههای خام کتاب صوتی است:
- جداسازی منبع: جداسازی گفتار تمیز از هرگونه موسیقی پسزمینه یا جلوههای صوتی موجود در کتاب صوتی تجاری.
- همترازی تقریبی: استفاده از طبقهبندی زمانی ارتباطگرا (CTC) از یک مدل ASR از پیش آموزشدیده برای به دست آوردن یک همترازی اولیه بین صوت و متن.
- پالایش دقیق: اعمال تشخیص فعالیت صوتی (VAD) برای قطعهبندی دقیق گفتار و پالایش مرزهای هر بیان، برای اطمینان از همترازی دقیق در سطح جمله یا عبارت.
این خط لوله برای مقیاسپذیری و استقلال از زبان طراحی شده است.
3. روششناسی فنی
3.1 جداسازی آواز-ساز
برای مدیریت کتابهای صوتی دارای موسیقی اتفاقی، از مدلهای جداسازی منبع (مانند مدلهای مبتنی بر Deep Clustering یا Conv-TasNet) برای استخراج یک قطعه آوازی تمیز استفاده میشود که برای آموزش مدلهای TTS با کیفیت بالا حیاتی است.
3.2 همترازی مبتنی بر CTC
CTC چارچوبی برای همترازی توالیهای صوتی با طول متغیر با توالیهای متنی بدون نیاز به دادههای از پیش قطعهبندی شده فراهم میکند. با توجه به یک توالی صوتی ورودی $X$ و توالی کاراکتر هدف $Y$، CTC یک توزیع $p(Y|X)$ را با جمعزدن روی همه همترازیهای ممکن $\pi$ از طریق برنامهریزی پویا تعریف میکند. تابع زیان به صورت $\mathcal{L}_{CTC} = -\log p(Y|X)$ تعریف میشود. یک مدل ASR ژاپنی از پیش آموزشدیده، احتمالات CTC را برای همترازی اجباری فراهم میکند.
3.3 پالایش مبتنی بر VAD
پس از همترازی CTC، یک مدل VAD مرزهای گفتار/غیرگفتار را تشخیص میدهد. این مرحله مکثهای سکوت را که به اشتباه در بیانها گنجانده شدهاند حذف کرده و نقاط شروع/پایان را تیز میکند که منجر به جفتهای صوت-متن تمیزتر و دقیقتر میشود. مجموعه داده نهایی شامل متن ساختاریافته و قطعه صوتی با وفاداری بالا و روایت شده حرفهای متناظر آن است.
4. ارزیابی و نتایج
نویسندگان ارزیابیهای سنتز گفتار کتاب صوتی را با استفاده از مدلهای آموزشدیده روی J-MAC انجام دادند. یافتههای کلیدی شامل موارد زیر است:
- بهبود عمومی روش: پیشرفتها در معماری هسته سنتز TTS (مثلاً حرکت از Tacotron2 به یک مدل مدرنتر شبیه VITS)، طبیعی بودن گفتار مصنوعی را در میان همه گویندگان پیکره بهبود بخشید.
- عوامل درهمتنیده: طبیعی بودن درک شده گفتار کتاب صوتی مصنوعی، به طور مستقل قابل انتساب به روش سنتز، صدای گوینده هدف یا محتوای کتاب نیست. این عوامل به شدت درهمتنیده هستند. یک مدل برتر ممکن است در یک ترکیب خاص گوینده-کتاب بهتر به نظر برسد اما در دیگری نه، که پیچیدگی این وظیفه را برجسته میکند.
توضیح نمودار (ضمنی): یک نمودار میلهای فرضی، امتیاز میانگین نظر (MOS) برای طبیعی بودن را در شرایط مختلف (مدل سنتز x گوینده x کتاب) نشان میدهد. میلهها واریانس بالایی را درون هر گروه مدل نشان میدهند که به صورت بصری اثر درهمتنیدگی را نمایش میدهد، به جای یک رتبهبندی واضح و ثابت از مدلها.
5. بینشهای کلیدی و بحث
مشارکت هستهای
J-MAC اولین پیکره کتاب صوتی چندگوینده ژاپنی متنباز ساخته شده از منابع حرفهای را فراهم میکند و پژوهش قابل تکرار در TTS بیانی با فرم بلند را ممکن میسازد.
خط لوله خودکار
روش ساخت پیشنهادی یک مشارکت عملی عمده است که زمان ایجاد پیکره را از ماهها کار دستی به یک فرآیند خودکار کاهش میدهد.
پیامدهای پژوهشی
یافته "درهمتنیدگی"، پارادایم ارزیابی TTS را به چالش کشیده و نشان میدهد که مدلهای آتی باید محتوا، گوینده و سبک روایی را به طور مشترک و پویا مدل کنند.
6. تحلیل اصیل: تغییر پارادایم J-MAC
بینش هستهای: مقاله J-MAC صرفاً درباره یک مجموعه داده جدید نیست؛ یک چرخش استراتژیک برای کل حوزه TTS است. این مقاله تصدیق میکند که بازی "سبک خوانش" عمدتاً به پایان رسیده است — مدلهایی مانند VITS و YourTTS به کیفیت نزدیک به انسان در جملات مجزا دست یافتهاند. مرز جدید، همانطور که J-MAC به درستی شناسایی کرده است، هوش روایی است: سنتز گفتاری که بار بافت، شخصیت و تفسیر منحصر به فرد گوینده را در طول هزاران کلمه حمل میکند. این امر TTS را از یک مسئله تولید سیگنال به یک مسئله مدلسازی گفتمان منتقل میکند.
جریان منطقی: منطق نویسندگان بیعیب است. ۱) کتابهای صوتی حرفهای استاندارد طلایی برای گفتار بیانی با فرم بلند هستند. ۲) ساخت دستی چنین پیکرهای مانع بزرگی است. ۳) بنابراین، استخراج خودکار از محصولات موجود. خط لوله فنی آنها یک بازهدفگذاری هوشمندانه از ابزارهای موجود (جداسازی منبع، CTC، VAD) به یک راهحل نوآورانه و قوی است. انتخاب استفاده از متون فاقد حق تکثیر برای دور زدن خطاهای ASR روی زبان ادبی، یک تصمیم عملی به ویژه زیرکانه است.
نقاط قوت و ضعف: نقطه قوت اصلی کاربرد بنیادی پیکره و روش است. این کار یک حوزه پژوهشی جدید را باز میکند. ارزیابی که درهمتنیدگی عوامل را آشکار میکند، یک یافته صادقانه و مهم است که معیارسازی سادهانگارانه را پیچیده میکند. با این حال، ضعف اصلی مقاله تمرکز تاکتیکی بر روی چشمانداز استراتژیک است. این مقاله "چگونگی" را درخشان ارائه میدهد اما درباره "بعد چه" سبکتر است. مدلها دقیقاً چگونه باید از بافت فراجملهای که J-MAC فراهم میکند استفاده کنند؟ در حالی که آنها به اطلاعات سلسلهمراتبی اشاره میکنند، با معماریهای پیشرفته مدلسازی بافت مانند ترنسفورمر با توجه برد بلند یا شبکههای حافظه درگیر نمیشوند، که برای این وظیفه حیاتی هستند، همانطور که در آثار مشابه مانند "Long-Context TTS" از گوگل ریسرچ دیده میشود. علاوه بر این، در حالی که خط لوله مستقل از زبان است، مقاله از مقایسه مستقیم با تلاشها در زبانهای دیگر، مانند پیکره LibriTTS برای انگلیسی، سود میبرد تا ارزش منحصر به فرد J-MAC در ثبت بیان حرفهای را بهتر موقعیتدهی کند.
بینشهای عملی: برای پژوهشگران، اقدام فوری دانلود J-MAC و شروع آزمایش با مدلهای آگاه از روایت است. این حوزه باید معیارهای ارزیابی جدیدی فراتر از MOS سطح جمله اتخاذ کند، شاید با استفاده از معیارهای تحلیل روایت محاسباتی یا آزمونهای شنونده برای درک و درگیری داستان. برای صنعت، این نشان میدهد که موج بعدی کاربردهای TTS با ارزش بالا — کتابهای صوتی پویا، دیالوگ بازی ویدیویی غوطهور، همراهان هوش مصنوعی شخصیسازی شده — نیازمند سرمایهگذاری در پیکرههای غنی از بافت و چندسبک و مدلهایی است که بتوانند از آنها استفاده کنند. عصر راوی عصبی بیانی با بافت بلند در حال آغاز است و J-MAC تازه زیرساخت ضروری را بنا نهاده است.
7. جزئیات فنی و فرمولبندی ریاضی
فرآیند همترازی بر هدف CTC متکی است. برای یک توالی ویژگی صوتی ورودی $X = [x_1, ..., x_T]$ و یک توالی برچسب هدف $Y = [y_1, ..., y_U]$ (که در آن $U \leq T$)، CTC یک نشانه خالی $\epsilon$ معرفی میکند و همه همترازیهای ممکن $\pi$ به طول $T$ را در نظر میگیرد که پس از حذف تکرارها و نشانههای خالی به $Y$ نگاشت میشوند. احتمال $Y$ به شرط $X$ برابر است با:
$$ p(Y|X) = \sum_{\pi \in \mathcal{B}^{-1}(Y)} p(\pi|X) $$
که در آن $\mathcal{B}$ تابعی است که تکرارها و نشانههای خالی را حذف میکند. $p(\pi|X)$ معمولاً توسط یک شبکه عصبی (مانند یک LSTM دوطرفه یا ترنسفورمر) به دنبال یک softmax روی واژگان گسترشیافته (کاراکترها + $\epsilon$) مدل میشود. تابع زیان $\mathcal{L}_{CTC} = -\log p(Y|X)$ در طول آموزش ASR کمینه میشود. برای همترازی در J-MAC، از احتمالات خروجی یک شبکه از پیش آموزشدیده همراه با یک الگوریتم شبیه وایتربی برای یافتن مسیر همترازی محتملترین $\pi^*$ استفاده میشود که مهرهای زمانی هر کاراکتر یا واج را فراهم میکند.
پالایش VAD را میتوان به عنوان یک وظیفه طبقهبندی دودویی برای هر فریم صوتی $t$ فرمولبندی کرد: $z_t = \text{VAD}(x_t) \in \{0, 1\}$، که در آن ۱ نشاندهنده گفتار است. سپس مرزهای بیان به نزدیکترین شروع/پایان گفتار تنظیم میشوند.
8. چارچوب تحلیل: یک مطالعه موردی عملی
سناریو: یک تیم پژوهشی میخواهد بررسی کند که چگونه معماریهای مختلف TTS، "تعجب" بیان شده در مرز یک جمله در یک رمان معمایی را مدیریت میکنند.
کاربرد چارچوب با استفاده از J-MAC:
- استخراج داده: استفاده از متن ساختاریافته J-MAC برای یافتن جفت جملات مجاور که جمله اول با یک عبارت خنثی پایان مییابد و جمله دوم با یک عبارت تعجبی آغاز میشود (مثلاً "...اتاق خالی بود." / "صبر کن! یک نامه روی زمین بود.").
- آموزش مدل: آموزش دو مدل TTS روی J-MAC:
- مدل A (خط پایه): یک مدل خودرگرسیو استاندارد (مانند Tacotron2) که جملات را مستقل پردازش میکند.
- مدل B (آگاه از بافت): یک مدل مبتنی بر ترنسفورمر که برای پذیرش یک پنجره از جاسازیهای جمله قبلی به عنوان بافت اضافی اصلاح شده است.
- ارزیابی:
- عینی: اندازهگیری شیب زیر و بمی و افزایش انرژی روی کلمه "صبر کن!" در جمله دوم. برای تعجب متقاعدکننده، انتظار میرود آهنگ گفتاری شیبدارتر و پویاتری داشته باشد.
- ذهنی: انجام یک آزمون A/B که در آن شنوندگان هر دو نسخه را میشنوند و قضاوت میکنند کدام یک انتقال روایی از آرامش به تعجب را بهتر منتقل میکند.
- تحلیل: اگر مدل B به طور مداوم کنتراست آهنگ گفتاری بیشتری نشان دهد و توسط شنوندگان ترجیح داده شود، شواهدی ارائه میدهد که مدلسازی بافت فراجملهای، که توسط ساختار J-MAC ممکن شده است، سنتز روایی بیانی را بهبود میبخشد.
این مطالعه موردی نشان میدهد که چگونه J-MAC پژوهش فرضیهمحور فراتر از شبیهسازی ساده صدا را ممکن میسازد.
9. کاربردهای آتی و جهتهای پژوهشی
- کتابهای صوتی شخصیسازی شده: تنظیم دقیق یک مدل پایه روی سبک راوی مورد علاقه کاربر از J-MAC برای تولید کتابهای جدید در آن سبک.
- داستانگویی و بازیهای تعاملی: تولید دیالوگ شخصیت پویا و بیانی در زمان واقعی بر اساس بافت روایی، فراتر از خطوط از پیش ضبط شده.
- خلق محتوای کمکشده با هوش مصنوعی: ابزارهایی برای نویسندگان و پادکسترها برای تولید دوبله با کیفیت بالا و بیانی برای پیشنویسها یا تولیدات کامل.
- جهتهای پژوهشی:
- مدلهای جداسازی: توسعه معماریهایی که بتوانند به طور جداگانه محتوا، هویت گوینده و سبک بیانی را کنترل و دستکاری کنند (مانند گسترش مفاهیم از "Global Style Tokens" به یک بافت بلند).
- معیارهای ارزیابی: ایجاد معیارهای خودکاری که با ادراک انسانی از جریان روایی، بیانگری و درگیری شنونده در گذرگاههای بلند همبستگی داشته باشد.
- انتقال بیانگری بینزبانی: استفاده از پیکرهای مانند J-MAC برای مطالعه چگونگی انتقال الگوهای بیانی بین زبانها در سنتز.
10. منابع
- J. Shen, et al., "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions," ICASSP 2018.
- A. Vaswani, et al., "Attention Is All You Need," NeurIPS 2017.
- J. Kim, et al., "Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search," NeurIPS 2020.
- J. Kong, et al., "HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis," NeurIPS 2020.
- Y. Ren, et al., "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech," ICLR 2021.
- E. Casanova, et al., "YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone," ICML 2022.
- R. Huang, et al., "FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis," IJCAI 2022.
- Google Research, "Long-Context TTS," (Blog Post on Scalable Context Modeling), 2023.
- LibriTTS Corpus: A corpus derived from audiobooks for English TTS research.
- Y. Wang, et al., "Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis," ICML 2018.