انتخاب زبان

J-MAC: پیکره‌ی صوتی چندگوینده‌ی ژاپنی برای کتاب‌های صوتی در سنتز گفتار

تحلیل روش‌شناسی ساخت پیکره‌ی J-MAC، مشارکت‌های فنی، نتایج ارزیابی و مسیرهای آینده برای سنتز گفتار بیانی در کتاب‌های صوتی.
audio-novel.com | PDF Size: 0.4 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - J-MAC: پیکره‌ی صوتی چندگوینده‌ی ژاپنی برای کتاب‌های صوتی در سنتز گفتار

1. مقدمه

این مقاله J-MAC (پیکره‌ی صوتی چندگوینده‌ی ژاپنی برای کتاب‌های صوتی) را معرفی می‌کند؛ یک پیکره‌ی گفتاری نوآورانه که برای پیشبرد پژوهش در سنتز گفتار بیانی و آگاه از بافت، به ویژه برای کاربردهای کتاب صوتی طراحی شده است. نویسندگان استدلال می‌کنند که اگرچه TTS سبک خواندن به کیفیتی نزدیک به انسان دست یافته است، اما مرز بعدی شامل مدیریت بافت‌های پیچیده و فراجمله‌ای، بیان خاص گوینده و جریان روایت — ویژگی‌های بارز روایت حرفه‌ای کتاب صوتی — می‌شود. کمبود پیکره‌های باکیفیت و چندگوینده برای کتاب‌های صوتی، به ویژه برای زبان‌هایی مانند ژاپنی، به عنوان یک گلوگاه کلیدی شناسایی شده است. J-MAC با ارائه‌ی منبعی ساخته شده از کتاب‌های صوتی روایت شده توسط حرفه‌ای‌ها و با استفاده از یک خط لوله‌ی ساخت خودکار و مستقل از زبان، هدف پر کردن این شکاف را دارد.

2. ساخت پیکره

ساخت J-MAC شامل یک خط لوله سه مرحله‌ای است: جمع‌آوری داده، پالایش و هم‌ترازی دقیق متن-صدا.

2.1 جمع‌آوری داده

کتاب‌های صوتی بر اساس دو معیار اصلی انتخاب شدند: 1) در دسترس بودن متن مرجع دقیق (اولویت دادن به رمان‌های خارج از حق تکثیر برای اجتناب از خطاهای رونویسی ASR روی موجودیت‌های نام‌دار)، و 2) وجود روایت‌های چندگانه توسط گویندگان حرفه‌ای از یک کتاب واحد برای ثبت بیان وابسته به گوینده. این تمرکز بر ضبط‌های موازی (کتاب یکسان، گویندگان متفاوت) یک انتخاب استراتژیک برای امکان‌پذیر کردن مطالعات کنترل شده روی سبک گوینده است.

2.2 پالایش و هم‌ترازی داده

صدای خام کتاب صوتی فرآیند پالایش چندمرحله‌ای را طی می‌کند. ابتدا، جداسازی آواز-ساز (به عنوان مثال با استفاده از ابزارهایی مانند Spleeter یا Open-Unmix) صدای گوینده را از هرگونه موسیقی پس‌زمینه یا جلوه‌های صوتی جدا می‌کند. سپس، طبقه‌بندی زمانی اتصال‌گرا (CTC)، معمولاً از یک مدل ASR از پیش آموزش دیده، یک هم‌ترازی تقریبی بین بخش‌های صوتی و متن متناظر فراهم می‌کند. در نهایت، تشخیص فعالیت صوتی (VAD) برای پالایش مرزهای بخش‌های گفتار اعمال می‌شود تا گویه‌های تمیز و دقیق منطبق بر متن تضمین شود.

3. روش‌شناسی فنی

نوآوری اصلی در خط لوله‌ی خودکار نهفته است که تلاش دستی را به حداقل می‌رساند.

3.1 جداسازی آواز-ساز

این گام برای به دست آوردن داده‌های گفتاری "تمیز" حیاتی است. مقاله اشاره می‌کند که از مدل‌های جداسازی منبع برای استخراج قطعه‌ی آوازی استفاده می‌شود و عناصر غیرگفتاری که می‌توانند آموزش مدل TTS را تخریب کنند، حذف می‌شوند.

3.2 هم‌ترازی مبتنی بر CTC

هم‌ترازی CTC به دلیل توانایی آن در مدیریت دنباله‌هایی با طول‌های مختلف بدون تقسیم‌بندی صریح استفاده می‌شود. تابع زیان CTC، $L_{CTC} = -\log P(\mathbf{y}|\mathbf{x})$، که در آن $\mathbf{x}$ ورودی آکوستیک و $\mathbf{y}$ دنباله برچسب هدف است، به مدل اجازه می‌دهد تا یک هم‌ترازی بین فریم‌های صوتی و کاراکترها/واج‌های متن بیاموزد.

3.3 پالایش با VAD

پس از هم‌ترازی CTC، از الگوریتم‌های VAD (مانند مبتنی بر آستانه‌های انرژی یا شبکه‌های عصبی) برای تشخیص نقاط شروع و پایان دقیق گفتار درون بخش‌های تقریباً هم‌تراز شده استفاده می‌شود تا سکوت یا نویز ابتدا و انتها حذف شود.

4. ارزیابی و نتایج

نویسندگان ارزیابی‌های سنتز گفتار کتاب صوتی را با استفاده از مدل‌های آموزش دیده روی J-MAC انجام دادند. یافته‌های کلیدی شامل موارد زیر است:

  • تعمیم‌پذیری روش: بهبود در روش سنتز زیربنایی (مانند مدل‌های آکوستیک بهتر)، طبیعی بودن گفتار مصنوعی را در میان تمام گویندگان پیکره افزایش داد.
  • عوامل درهم‌تنیده: طبیعی بودن گفتار کتاب صوتی سنتز شده به شدت تحت تأثیر تعامل پیچیده‌ای بین روش سنتز، ویژگی‌های صدای گوینده هدف و کتاب/محتویات خاص در حال سنتز قرار داشت. جداسازی این عوامل همچنان یک چالش باقی مانده است.

بینش ارزیابی

نتیجه اصلی: کیفیت سنتز به طور غیربدیهی وابسته به تعامل گوینده × روش × محتوا است.

5. بینش‌های کلیدی و بحث

  • J-MAC به مسئله بحرانی کمبود داده برای پژوهش TTS بیانی در زبان ژاپنی می‌پردازد.
  • خط لوله ساخت خودکار یک مشارکت مهم است که هزینه و زمان ایجاد چنین پیکره‌هایی را کاهش می‌دهد و به طور بالقوه برای زبان‌های دیگر نیز قابل اعمال است.
  • ارزیابی تأکید می‌کند که سنتز کتاب صوتی صرفاً بزرگ‌نمایی TTS تک‌جمله‌ای نیست؛ بلکه نیازمند مدل‌سازی بافت روایی سطح بالاتر و هویت گوینده است.
  • یافته "درهم‌تنیدگی" نشان می‌دهد که معیارها و مدل‌های ارزیابی آینده باید عوامل چندبعدی را در نظر بگیرند.

6. تحلیل اصیل: دیدگاه صنعت

بینش اصلی: مقاله J-MAC صرفاً درباره یک مجموعه داده جدید نیست؛ بلکه یک حرکت استراتژیک برای تغییر پارادایم TTS از تولید گویه‌های مجزا به مدل‌سازی روایی کل‌نگر است. نویسندگان به درستی شناسایی کرده‌اند که نقطه عطف ارزش بعدی در سنتز گفتار در محتوای طولانی و بیانی مانند کتاب‌های صوتی، پادکست‌ها و روایت‌های تعاملی نهفته است — حوزه‌هایی که TTS فعلی هنوز رباتیک و ناآگاه از بافت به نظر می‌رسد. با متن‌باز کردن یک پیکره چندگوینده، آنها نه تنها داده ارائه می‌دهند؛ بلکه معیار و دستورکار پژوهشی را تعیین می‌کنند.

جریان منطقی: منطق آنها بی‌عیب است: 1) داده باکیفیت سوخت یادگیری عمیق است. 2) کتاب‌های صوتی حرفه‌ای استاندارد طلایی برای گفتار بیانی و منسجم از نظر بافتی هستند. 3) ایجاد دستی پیکره به شدت پرهزینه است. بنابراین، یک خط لوله خودکار (جداسازی → هم‌ترازی CTC → VAD) تنها راه‌حل مقیاس‌پذیر است. این آینه‌ی جنبش هوش مصنوعی داده‌محور مورد حمایت اندرو انگ است، جایی که کیفیت خط لوله داده به اندازه معماری مدل اهمیت دارد.

نقاط قوت و ضعف: نقطه قوت اصلی عملی بودن و طراحی مستقل از زبان خط لوله است. استفاده از اجزای آماده مانند مدل‌های جداسازی منبع (مانند مبتنی بر معماری‌هایی مانند U-Net استفاده شده در Demucs) و ASR مبتنی بر CTC آن را قابل تکثیر می‌کند. با این حال، ضعف مقاله، پرداخت سبک آن به مسئله "بافت" است که برجسته می‌کند. این مقاله داده (J-MAC) را فراهم می‌کند اما راه‌حل‌های مدل‌سازی نوآورانه محدودی برای بهره‌برداری از بافت فراجمله‌ای یا جداسازی سبک گوینده از محتوا ارائه می‌دهد. نتایج ارزیابی، اگرچه بینش‌آفرین هستند، توصیفی هستند نه تجویزی. چگونه واقعاً عوامل "درهم‌تنیده" را مدل کنیم؟ تکنیک‌هایی از انتقال سبک و یادگیری بازنمایی جداشده، مانند آنچه در CycleGAN یا رمزگذارهای خودکار واریاسیونی وجود دارد، به آنها اشاره شده اما به طور عمیق کاوش نشده است.

بینش‌های عملی: برای فعالان صنعت، نتیجه‌گیری دوگانه است. اول، در ساخت یا کسب پیکره‌های گفتاری طولانی و چندسبک مشابه سرمایه‌گذاری کنید — این یک تمایزدهنده کلیدی خواهد بود. دوم، اولویت پژوهشی باید بر روی معماری‌های آگاه از بافت باشد. این می‌تواند به معنای مدل‌های مبتنی بر ترنسفورمر با پنجره‌های بافت بسیار طولانی‌تر، یا مدل‌های سلسله‌مراتبی باشد که به طور جداگانه آهنگ محلی، سبک گوینده و قوس روایی کلی را کدگذاری می‌کنند. کار تیم‌هایی مانند Google Brain روی SoundStream یا مایکروسافت روی VALL-E به سمت رویکردهای مبتنی بر کدک عصبی اشاره دارد که می‌توانند با سرنخ‌های بافتی که J-MAC فراهم می‌کند، گسترش یابند. آینده فقط سنتز یک جمله نیست؛ سنتز یک اجرا است.

7. جزئیات فنی و فرمول‌بندی ریاضی

فرآیند هم‌ترازی به شدت متکی بر هدف CTC است. برای یک دنباله ورودی $\mathbf{x}$ (ویژگی‌های صوتی) به طول $T$ و یک دنباله برچسب هدف $\mathbf{l}$ (کاراکترهای متن) به طول $U$، که در آن $T > U$، CTC یک نشانه خالی $\epsilon$ معرفی می‌کند و یک نگاشت چندبهیک $\mathcal{B}$ از یک مسیر $\pi$ (به طول $T$) به $\mathbf{l}$ تعریف می‌کند. احتمال یک مسیر برابر است با: $P(\pi|\mathbf{x}) = \prod_{t=1}^{T} y_{\pi_t}^t$، که در آن $y_{\pi_t}^t$ احتمال نماد $\pi_t$ در زمان $t$ است. احتمال شرطی دنباله برچسب، مجموع تمام مسیرهایی است که توسط $\mathcal{B}$ به آن نگاشت می‌شوند: $P(\mathbf{l}|\mathbf{x}) = \sum_{\pi \in \mathcal{B}^{-1}(\mathbf{l})} P(\pi|\mathbf{x})$. این فرمول‌بندی به مدل اجازه می‌دهد تا هم‌ترازی را بدون داده‌های از پیش تقسیم‌بندی شده بیاموزد. در خط لوله J-MAC، یک مدل CTC از پیش آموزش دیده (مانند مبتنی بر معماری شبیه DeepSpeech2) این هم‌ترازی‌ها را برای قطعه‌بندی صدا تولید می‌کند.

8. نتایج تجربی و توصیف نمودار

اگرچه گزیده PDF ارائه شده حاوی نمودارهای صریح نیست، نتایج توصیف شده طراحی ارزیابی چندعاملی را القا می‌کند. یک نمودار فرضی از نتایج که یافته کلیدی آنها را نشان می‌داد، یک نمودار سطح سه‌بعدی یا یک سری نمودار میله‌ای گروه‌بندی شده خواهد بود.

توصیف نمودار: محور y نشان‌دهنده میانگین نمره نظر (MOS) برای طبیعی بودن (مثلاً مقیاس 1-5) است. محور x روش‌های سنتز مختلف را فهرست می‌کند (مانند Tacotron2، FastSpeech2، یک مدل پیشنهادی). گروه‌بندی/محور z گویندگان مختلف از J-MAC (گوینده A، B، C) و/یا کتاب‌های مختلف (کتاب X، کتاب Y) را نشان می‌دهد. یافته بصری کلیدی این خواهد بود که ارتفاع میله‌ها (MOS) در بین گروه‌ها از یک ترتیب ثابت پیروی نمی‌کند. برای مثال، روش 1 ممکن است برای گوینده A در کتاب X بهترین باشد، اما برای گوینده B در کتاب Y بدترین باشد که به وضوح "درهم‌تنیدگی شدید" عوامل را نشان می‌دهد. میله‌های خطا به احتمال زیاد همپوشانی قابل توجهی را نشان می‌دهند که چالش نتیجه‌گیری ساده را نشان می‌دهد.

9. چارچوب تحلیل: نمونه موردی

مطالعه موردی: ارزیابی یک مدل TTS جدید برای کتاب‌های صوتی

هدف: تعیین اینکه آیا "مدل-Z" نسبت به یک خط پایه برای سنتز کتاب صوتی با استفاده از J-MAC بهبود ایجاد می‌کند یا خیر.

چارچوب:

  1. تقسیم‌بندی داده: J-MAC را بر اساس کتاب و گوینده تقسیم کنید. اطمینان حاصل کنید که مجموعه‌های آزمون شامل جملات دیده نشده از کتاب‌های دیده شده در آموزش (درون دامنه) و کتاب‌های کاملاً دیده نشده (برون دامنه) باشند.
  2. آموزش مدل: هر دو مدل خط پایه (مانند FastSpeech2) و مدل-Z را روی همان تقسیم آموزش آموزش دهید. از جفت‌های متن-صدا J-MAC استفاده کنید.
  3. ارزیابی کنترل شده: گفتار را برای دنباله‌های متنی یکسان در تمام شرایط آزمون (ترکیب‌های گوینده × کتاب) تولید کنید.
  4. معیارها:
    • اصلی: MOS برای طبیعی بودن و بیانگری.
    • فرعی: نرخ خطای کلمه (WER) ASR روی گفتار مصنوعی (وضوح)، نمره شباهت گوینده (مانند استفاده از یک مدل تأیید گوینده مانند ECAPA-TDNN).
    • معیار بافتی: آزمون A/B که در آن ارزیاب‌ها به دو جمله سنتز شده متوالی گوش می‌دهند و انسجام را امتیازدهی می‌کنند.
  5. تحلیل: تحلیل ANOVA یا تحلیل آماری مشابه را برای جداسازی اثر مدل، گوینده، کتاب و تعاملات آنها روی نمرات MOS انجام دهید. فرض صفر این خواهد بود که "مدل-Z اثری مستقل از گوینده و کتاب ندارد."
این چارچوب مستقیماً به مسئله درهم‌تنیدگی که در مقاله برجسته شده است، می‌پردازد.

10. کاربردهای آینده و مسیرهای پژوهشی

  • کتاب‌های صوتی شخصی‌سازی شده: سنتز کتاب‌ها به صدای راوی مورد علاقه کاربر یا حتی یک کلون صوتی شخصی.
  • روایت پویا برای بازی‌ها/XR: تولید دیالوگ و روایت آگاه از بافت و بیانی در زمان واقعی برای رسانه‌های تعاملی.
  • دسترسی‌پذیری: کاهش چشمگیر زمان و هزینه تولید کتاب‌های صوتی برای افراد کم‌بینا یا برای کتاب‌ها به زبان‌های کم‌منبع.
  • مسیرهای پژوهشی:
    1. یادگیری بازنمایی جداشده: توسعه مدل‌هایی که به طور صریح محتوا، سبک گوینده، احساس و لحن روایی را به متغیرهای نهفته جدا می‌کنند.
    2. مدل‌سازی بافت طولانی: بهره‌برداری از انواع کارآمد ترنسفورمر (مانند Longformer، Performer) برای شرطی کردن سنتز روی کل پاراگراف‌ها یا فصل‌ها.
    3. انتقال و کنترل آهنگ: امکان کنترل دقیق بر سرعت، تأکید و زیروبمی در گذرگاه‌های طولانی، شاید با استفاده از کلیپ‌های صوتی مرجع به عنوان نشانه سبک.
    4. گسترش بین‌زبانی: اعمال خط لوله ساخت J-MAC برای ساخت پیکره‌های مشابه برای زبان‌های دیگر، ترویج مطالعات تطبیقی.

11. مراجع

  1. J. Shen, et al., "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions," ICASSP 2018.
  2. A. Vaswani, et al., "Attention Is All You Need," NeurIPS 2017.
  3. Y. Ren, et al., "FastSpeech: Fast, Robust and Controllable Text to Speech," NeurIPS 2019.
  4. J.-Y. Zhu, et al., "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," ICCV 2017 (CycleGAN).
  5. A. Défossez, et al., "Demucs: Deep Extractor for Music Sources with extra unlabeled data remixed," arXiv:1909.01174.
  6. A. van den Oord, et al., "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499.
  7. J. Kong, et al., "HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis," NeurIPS 2020.
  8. N. Zeghidour, et al., "SoundStream: An End-to-End Neural Audio Codec," arXiv:2107.03312.
  9. A. Graves, et al., "Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks," ICML 2006.
  10. Andrew Ng, "Data-Centric AI," DeepLearning.AI.