انتخاب زبان

J-MAC: پیکره‌ی صوتی چندگوینده‌ی ژاپنی برای کتاب‌های صوتی در سنتز گفتار - تحلیل فنی

تحلیل فنی J-MAC، یک پیکره‌ی صوتی چندگوینده‌ی ژاپنی برای تحقیقات سنتز گفتار بیانی، شامل روش‌شناسی ساخت، نتایج ارزیابی و جهت‌گیری‌های آتی.
audio-novel.com | PDF Size: 0.4 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - J-MAC: پیکره‌ی صوتی چندگوینده‌ی ژاپنی برای کتاب‌های صوتی در سنتز گفتار - تحلیل فنی

1. مقدمه

این مقاله J-MAC (پیکره‌ی صوتی چندگوینده‌ی ژاپنی برای کتاب‌های صوتی) را معرفی می‌کند؛ یک پیکره‌ی گفتاری نوآورانه که برای پیشبرد پژوهش در سنتز متن به گفتار (TTS) بیانی و آگاه از بافت، به ویژه برای کاربردهای کتاب صوتی طراحی شده است. نویسندگان یک شکاف حیاتی در پژوهش‌های کنونی TTS را شناسایی می‌کنند: در حالی که سنتز با سبک خوانش با وفاداری بالا تقریباً حل شده است، این حوزه به سمت وظایف پیچیده‌تری در حال حرکت است که نیازمند انسجام فراجمله‌ای، بیان ظریف و مدل‌سازی سبک خاص گوینده است — همه از ویژگی‌های روایت حرفه‌ای کتاب صوتی. J-MAC با ارائه یک پیکره‌ی چندگوینده مشتق شده از کتاب‌های صوتی تجاری خوانده شده توسط راویان حرفه‌ای، که از طریق یک خط لوله خودکار و مستقل از زبان پردازش شده است، به این نیاز پاسخ می‌دهد.

2. ساخت پیکره

ساخت J-MAC یک فرآیند چندمرحله‌ای و خودکار است که برای استخراج جفت‌های گفتار-متن هم‌تراز و با کیفیت بالا از محصولات خام کتاب صوتی طراحی شده است.

2.1 جمع‌آوری داده

نویسندگان دو معیار کلیدی را برای انتخاب منبع در اولویت قرار دادند:

  • دسترسی به متن مرجع: استفاده از رمان‌های فاقد حق تکثیر با متن آزادانه در دسترس، برای اجتناب از خطاهای بازشناسی گفتار خودکار (ASR) روی موجودیت‌های نامدار ادبی پیچیده.
  • نسخه‌های چندگوینده: جستجوی فعال راویان حرفه‌ای مختلف که یک کتاب واحد را می‌خوانند، برای ثبت سبک‌های تفسیری خاص هر گوینده، که ارزشمندتر از جمع‌آوری کتاب‌های بیشتر از یک گوینده واحد تلقی می‌شود.

متون ساختاریافته از ماده مرجع ایجاد شدند تا بافت سلسله‌مراتبی و فراجمله‌ای حفظ شود، که برای مدل‌سازی جریان روایت حیاتی است.

2.2 پاکسازی و هم‌ترازی داده

مشارکت فنی اصلی، خط لوله خودکار برای پالایش داده‌های خام کتاب صوتی است:

  1. جداسازی منبع: جداسازی گفتار تمیز از هرگونه موسیقی پس‌زمینه یا جلوه‌های صوتی موجود در کتاب صوتی تجاری.
  2. هم‌ترازی تقریبی: استفاده از طبقه‌بندی زمانی ارتباط‌گرا (CTC) از یک مدل ASR از پیش آموزش‌دیده برای به دست آوردن یک هم‌ترازی اولیه بین صوت و متن.
  3. پالایش دقیق: اعمال تشخیص فعالیت صوتی (VAD) برای قطعه‌بندی دقیق گفتار و پالایش مرزهای هر بیان، برای اطمینان از هم‌ترازی دقیق در سطح جمله یا عبارت.

این خط لوله برای مقیاس‌پذیری و استقلال از زبان طراحی شده است.

3. روش‌شناسی فنی

3.1 جداسازی آواز-ساز

برای مدیریت کتاب‌های صوتی دارای موسیقی اتفاقی، از مدل‌های جداسازی منبع (مانند مدل‌های مبتنی بر Deep Clustering یا Conv-TasNet) برای استخراج یک قطعه آوازی تمیز استفاده می‌شود که برای آموزش مدل‌های TTS با کیفیت بالا حیاتی است.

3.2 هم‌ترازی مبتنی بر CTC

CTC چارچوبی برای هم‌ترازی توالی‌های صوتی با طول متغیر با توالی‌های متنی بدون نیاز به داده‌های از پیش قطعه‌بندی شده فراهم می‌کند. با توجه به یک توالی صوتی ورودی $X$ و توالی کاراکتر هدف $Y$، CTC یک توزیع $p(Y|X)$ را با جمع‌زدن روی همه هم‌ترازی‌های ممکن $\pi$ از طریق برنامه‌ریزی پویا تعریف می‌کند. تابع زیان به صورت $\mathcal{L}_{CTC} = -\log p(Y|X)$ تعریف می‌شود. یک مدل ASR ژاپنی از پیش آموزش‌دیده، احتمالات CTC را برای هم‌ترازی اجباری فراهم می‌کند.

3.3 پالایش مبتنی بر VAD

پس از هم‌ترازی CTC، یک مدل VAD مرزهای گفتار/غیرگفتار را تشخیص می‌دهد. این مرحله مکث‌های سکوت را که به اشتباه در بیان‌ها گنجانده شده‌اند حذف کرده و نقاط شروع/پایان را تیز می‌کند که منجر به جفت‌های صوت-متن تمیزتر و دقیق‌تر می‌شود. مجموعه داده نهایی شامل متن ساختاریافته و قطعه صوتی با وفاداری بالا و روایت شده حرفه‌ای متناظر آن است.

4. ارزیابی و نتایج

نویسندگان ارزیابی‌های سنتز گفتار کتاب صوتی را با استفاده از مدل‌های آموزش‌دیده روی J-MAC انجام دادند. یافته‌های کلیدی شامل موارد زیر است:

  • بهبود عمومی روش: پیشرفت‌ها در معماری هسته سنتز TTS (مثلاً حرکت از Tacotron2 به یک مدل مدرن‌تر شبیه VITS)، طبیعی بودن گفتار مصنوعی را در میان همه گویندگان پیکره بهبود بخشید.
  • عوامل درهم‌تنیده: طبیعی بودن درک شده گفتار کتاب صوتی مصنوعی، به طور مستقل قابل انتساب به روش سنتز، صدای گوینده هدف یا محتوای کتاب نیست. این عوامل به شدت درهم‌تنیده هستند. یک مدل برتر ممکن است در یک ترکیب خاص گوینده-کتاب بهتر به نظر برسد اما در دیگری نه، که پیچیدگی این وظیفه را برجسته می‌کند.

توضیح نمودار (ضمنی): یک نمودار میله‌ای فرضی، امتیاز میانگین نظر (MOS) برای طبیعی بودن را در شرایط مختلف (مدل سنتز x گوینده x کتاب) نشان می‌دهد. میله‌ها واریانس بالایی را درون هر گروه مدل نشان می‌دهند که به صورت بصری اثر درهم‌تنیدگی را نمایش می‌دهد، به جای یک رتبه‌بندی واضح و ثابت از مدل‌ها.

5. بینش‌های کلیدی و بحث

مشارکت هسته‌ای

J-MAC اولین پیکره کتاب صوتی چندگوینده ژاپنی متن‌باز ساخته شده از منابع حرفه‌ای را فراهم می‌کند و پژوهش قابل تکرار در TTS بیانی با فرم بلند را ممکن می‌سازد.

خط لوله خودکار

روش ساخت پیشنهادی یک مشارکت عملی عمده است که زمان ایجاد پیکره را از ماه‌ها کار دستی به یک فرآیند خودکار کاهش می‌دهد.

پیامدهای پژوهشی

یافته "درهم‌تنیدگی"، پارادایم ارزیابی TTS را به چالش کشیده و نشان می‌دهد که مدل‌های آتی باید محتوا، گوینده و سبک روایی را به طور مشترک و پویا مدل کنند.

6. تحلیل اصیل: تغییر پارادایم J-MAC

بینش هسته‌ای: مقاله J-MAC صرفاً درباره یک مجموعه داده جدید نیست؛ یک چرخش استراتژیک برای کل حوزه TTS است. این مقاله تصدیق می‌کند که بازی "سبک خوانش" عمدتاً به پایان رسیده است — مدل‌هایی مانند VITS و YourTTS به کیفیت نزدیک به انسان در جملات مجزا دست یافته‌اند. مرز جدید، همانطور که J-MAC به درستی شناسایی کرده است، هوش روایی است: سنتز گفتاری که بار بافت، شخصیت و تفسیر منحصر به فرد گوینده را در طول هزاران کلمه حمل می‌کند. این امر TTS را از یک مسئله تولید سیگنال به یک مسئله مدل‌سازی گفتمان منتقل می‌کند.

جریان منطقی: منطق نویسندگان بی‌عیب است. ۱) کتاب‌های صوتی حرفه‌ای استاندارد طلایی برای گفتار بیانی با فرم بلند هستند. ۲) ساخت دستی چنین پیکره‌ای مانع بزرگی است. ۳) بنابراین، استخراج خودکار از محصولات موجود. خط لوله فنی آن‌ها یک بازهدف‌گذاری هوشمندانه از ابزارهای موجود (جداسازی منبع، CTC، VAD) به یک راه‌حل نوآورانه و قوی است. انتخاب استفاده از متون فاقد حق تکثیر برای دور زدن خطاهای ASR روی زبان ادبی، یک تصمیم عملی به ویژه زیرکانه است.

نقاط قوت و ضعف: نقطه قوت اصلی کاربرد بنیادی پیکره و روش است. این کار یک حوزه پژوهشی جدید را باز می‌کند. ارزیابی که درهم‌تنیدگی عوامل را آشکار می‌کند، یک یافته صادقانه و مهم است که معیارسازی ساده‌انگارانه را پیچیده می‌کند. با این حال، ضعف اصلی مقاله تمرکز تاکتیکی بر روی چشم‌انداز استراتژیک است. این مقاله "چگونگی" را درخشان ارائه می‌دهد اما درباره "بعد چه" سبک‌تر است. مدل‌ها دقیقاً چگونه باید از بافت فراجمله‌ای که J-MAC فراهم می‌کند استفاده کنند؟ در حالی که آن‌ها به اطلاعات سلسله‌مراتبی اشاره می‌کنند، با معماری‌های پیشرفته مدل‌سازی بافت مانند ترنسفورمر با توجه برد بلند یا شبکه‌های حافظه درگیر نمی‌شوند، که برای این وظیفه حیاتی هستند، همانطور که در آثار مشابه مانند "Long-Context TTS" از گوگل ریسرچ دیده می‌شود. علاوه بر این، در حالی که خط لوله مستقل از زبان است، مقاله از مقایسه مستقیم با تلاش‌ها در زبان‌های دیگر، مانند پیکره LibriTTS برای انگلیسی، سود می‌برد تا ارزش منحصر به فرد J-MAC در ثبت بیان حرفه‌ای را بهتر موقعیت‌دهی کند.

بینش‌های عملی: برای پژوهشگران، اقدام فوری دانلود J-MAC و شروع آزمایش با مدل‌های آگاه از روایت است. این حوزه باید معیارهای ارزیابی جدیدی فراتر از MOS سطح جمله اتخاذ کند، شاید با استفاده از معیارهای تحلیل روایت محاسباتی یا آزمون‌های شنونده برای درک و درگیری داستان. برای صنعت، این نشان می‌دهد که موج بعدی کاربردهای TTS با ارزش بالا — کتاب‌های صوتی پویا، دیالوگ بازی ویدیویی غوطه‌ور، همراهان هوش مصنوعی شخصی‌سازی شده — نیازمند سرمایه‌گذاری در پیکره‌های غنی از بافت و چندسبک و مدل‌هایی است که بتوانند از آن‌ها استفاده کنند. عصر راوی عصبی بیانی با بافت بلند در حال آغاز است و J-MAC تازه زیرساخت ضروری را بنا نهاده است.

7. جزئیات فنی و فرمول‌بندی ریاضی

فرآیند هم‌ترازی بر هدف CTC متکی است. برای یک توالی ویژگی صوتی ورودی $X = [x_1, ..., x_T]$ و یک توالی برچسب هدف $Y = [y_1, ..., y_U]$ (که در آن $U \leq T$)، CTC یک نشانه خالی $\epsilon$ معرفی می‌کند و همه هم‌ترازی‌های ممکن $\pi$ به طول $T$ را در نظر می‌گیرد که پس از حذف تکرارها و نشانه‌های خالی به $Y$ نگاشت می‌شوند. احتمال $Y$ به شرط $X$ برابر است با:

$$ p(Y|X) = \sum_{\pi \in \mathcal{B}^{-1}(Y)} p(\pi|X) $$

که در آن $\mathcal{B}$ تابعی است که تکرارها و نشانه‌های خالی را حذف می‌کند. $p(\pi|X)$ معمولاً توسط یک شبکه عصبی (مانند یک LSTM دوطرفه یا ترنسفورمر) به دنبال یک softmax روی واژگان گسترش‌یافته (کاراکترها + $\epsilon$) مدل می‌شود. تابع زیان $\mathcal{L}_{CTC} = -\log p(Y|X)$ در طول آموزش ASR کمینه می‌شود. برای هم‌ترازی در J-MAC، از احتمالات خروجی یک شبکه از پیش آموزش‌دیده همراه با یک الگوریتم شبیه وایتربی برای یافتن مسیر هم‌ترازی محتمل‌ترین $\pi^*$ استفاده می‌شود که مهرهای زمانی هر کاراکتر یا واج را فراهم می‌کند.

پالایش VAD را می‌توان به عنوان یک وظیفه طبقه‌بندی دودویی برای هر فریم صوتی $t$ فرمول‌بندی کرد: $z_t = \text{VAD}(x_t) \in \{0, 1\}$، که در آن ۱ نشان‌دهنده گفتار است. سپس مرزهای بیان به نزدیک‌ترین شروع/پایان گفتار تنظیم می‌شوند.

8. چارچوب تحلیل: یک مطالعه موردی عملی

سناریو: یک تیم پژوهشی می‌خواهد بررسی کند که چگونه معماری‌های مختلف TTS، "تعجب" بیان شده در مرز یک جمله در یک رمان معمایی را مدیریت می‌کنند.

کاربرد چارچوب با استفاده از J-MAC:

  1. استخراج داده: استفاده از متن ساختاریافته J-MAC برای یافتن جفت جملات مجاور که جمله اول با یک عبارت خنثی پایان می‌یابد و جمله دوم با یک عبارت تعجبی آغاز می‌شود (مثلاً "...اتاق خالی بود." / "صبر کن! یک نامه روی زمین بود.").
  2. آموزش مدل: آموزش دو مدل TTS روی J-MAC:
    • مدل A (خط پایه): یک مدل خودرگرسیو استاندارد (مانند Tacotron2) که جملات را مستقل پردازش می‌کند.
    • مدل B (آگاه از بافت): یک مدل مبتنی بر ترنسفورمر که برای پذیرش یک پنجره از جاسازی‌های جمله قبلی به عنوان بافت اضافی اصلاح شده است.
  3. ارزیابی:
    • عینی: اندازه‌گیری شیب زیر و بمی و افزایش انرژی روی کلمه "صبر کن!" در جمله دوم. برای تعجب متقاعدکننده، انتظار می‌رود آهنگ گفتاری شیب‌دارتر و پویاتری داشته باشد.
    • ذهنی: انجام یک آزمون A/B که در آن شنوندگان هر دو نسخه را می‌شنوند و قضاوت می‌کنند کدام یک انتقال روایی از آرامش به تعجب را بهتر منتقل می‌کند.
  4. تحلیل: اگر مدل B به طور مداوم کنتراست آهنگ گفتاری بیشتری نشان دهد و توسط شنوندگان ترجیح داده شود، شواهدی ارائه می‌دهد که مدل‌سازی بافت فراجمله‌ای، که توسط ساختار J-MAC ممکن شده است، سنتز روایی بیانی را بهبود می‌بخشد.

این مطالعه موردی نشان می‌دهد که چگونه J-MAC پژوهش فرضیه‌محور فراتر از شبیه‌سازی ساده صدا را ممکن می‌سازد.

9. کاربردهای آتی و جهت‌های پژوهشی

  • کتاب‌های صوتی شخصی‌سازی شده: تنظیم دقیق یک مدل پایه روی سبک راوی مورد علاقه کاربر از J-MAC برای تولید کتاب‌های جدید در آن سبک.
  • داستان‌گویی و بازی‌های تعاملی: تولید دیالوگ شخصیت پویا و بیانی در زمان واقعی بر اساس بافت روایی، فراتر از خطوط از پیش ضبط شده.
  • خلق محتوای کمک‌شده با هوش مصنوعی: ابزارهایی برای نویسندگان و پادکسترها برای تولید دوبله با کیفیت بالا و بیانی برای پیش‌نویس‌ها یا تولیدات کامل.
  • جهت‌های پژوهشی:
    • مدل‌های جداسازی: توسعه معماری‌هایی که بتوانند به طور جداگانه محتوا، هویت گوینده و سبک بیانی را کنترل و دستکاری کنند (مانند گسترش مفاهیم از "Global Style Tokens" به یک بافت بلند).
    • معیارهای ارزیابی: ایجاد معیارهای خودکاری که با ادراک انسانی از جریان روایی، بیان‌گری و درگیری شنونده در گذرگاه‌های بلند همبستگی داشته باشد.
    • انتقال بیان‌گری بین‌زبانی: استفاده از پیکره‌ای مانند J-MAC برای مطالعه چگونگی انتقال الگوهای بیانی بین زبان‌ها در سنتز.

10. منابع

  1. J. Shen, et al., "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions," ICASSP 2018.
  2. A. Vaswani, et al., "Attention Is All You Need," NeurIPS 2017.
  3. J. Kim, et al., "Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search," NeurIPS 2020.
  4. J. Kong, et al., "HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis," NeurIPS 2020.
  5. Y. Ren, et al., "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech," ICLR 2021.
  6. E. Casanova, et al., "YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone," ICML 2022.
  7. R. Huang, et al., "FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis," IJCAI 2022.
  8. Google Research, "Long-Context TTS," (Blog Post on Scalable Context Modeling), 2023.
  9. LibriTTS Corpus: A corpus derived from audiobooks for English TTS research.
  10. Y. Wang, et al., "Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis," ICML 2018.