انتخاب زبان

تحلیل آهنگ گفتار کتاب‌های صوتی: مدل‌های پردازش زبان طبیعی برای بهبود متن-به-گفتار

پژوهشی در زمینه پیش‌بینی ویژگی‌های آهنگ گفتار (زیروبمی، بلندی، سرعت) از متن روایی با استفاده از پردازش زبان طبیعی و مدل‌های زبانی، به منظور بهبود تولید کتاب‌های صوتی.
audio-novel.com | PDF Size: 0.5 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - تحلیل آهنگ گفتار کتاب‌های صوتی: مدل‌های پردازش زبان طبیعی برای بهبود متن-به-گفتار

فهرست مطالب

1. مقدمه و مرور کلی

این مقاله پژوهشی با عنوان «تحلیل آهنگ گفتار کتاب‌های صوتی»، به شکاف مهمی در سیستم‌های مدرن متن-به-گفتار می‌پردازد: ناتوانی در بازتولید بیان‌گری و لحن‌های نمایشی مشخصه کتاب‌های صوتی روایت‌شده توسط انسان. در حالی که سیستم‌های تجاری متن-به-گفتار در گفتار عمومی به طبیعی‌بودن بالایی دست یافته‌اند، در مواجهه با متون روایی غنی از گفتگو، احساسات و توصیف دچار ضعف می‌شوند. تز اصلی این است که تحلیل پردازش زبان طبیعی سطح بالا — با تمرکز ویژه بر شناسایی شخصیت‌ها، گفتگو و ساختار روایی — می‌تواند برای پیش‌بینی ویژگی‌های آهنگ گفتار (زیروبمی، بلندی، سرعت گفتار) به کار گرفته شود و کیفیت کتاب‌های صوتی مصنوعی را به‌طور چشمگیری بهبود بخشد.

این پژوهش یک مجموعه داده جدید شامل ۹۳ جفت کتاب و کتاب صوتی هم‌تراز ارائه می‌دهد و نشان می‌دهد که مدل‌های آموزش‌دیده روی این داده‌ها، در همبستگی با الگوهای آهنگ گفتار انسانی، از یک پایه تجاری پیشرفته متن-به-گفتار (Google Cloud TTS) عملکرد بهتری دارند.

93

جفت کتاب-کتاب صوتی هم‌تراز

1806

فصل تحلیل‌شده

22/24

کتاب‌ها با پیش‌بینی بهتر زیروبمی

23/24

کتاب‌ها با پیش‌بینی بهتر بلندی

2. روش‌شناسی و مجموعه داده

2.1 ساخت مجموعه داده

پایه این پژوهش، یک مجموعه داده با دقت گردآوری‌شده شامل ۹۳ رمان و کتاب‌های صوتی خوانده‌شده توسط انسان متناظر با آن‌ها است. این مجموعه داده شامل ۱۸۰۶ فصل با هم‌ترازی در سطح جمله بین متن و صوت است که امکان تحلیل دقیق را فراهم می‌کند. این مجموعه داده به‌صورت عمومی در دسترس قرار گرفته و منبعی ارزشمند برای جوامع گفتار و پردازش زبان طبیعی فراهم کرده است. فرآیند هم‌ترازی برای استخراج برچسب‌های دقیق آهنگ گفتار (زیروبمی، بلندی، سرعت) برای هر جمله در متن حیاتی است.

2.2 استخراج ویژگی‌های آهنگ گفتار

از کتاب‌های صوتی هم‌ترازشده، سه ویژگی اصلی آهنگ گفتار در سطح جمله استخراج می‌شود:

  • زیروبمی (F0): بسامد پایه، نشان‌دهنده نرخ ارتعاش تارهای صوتی. بر حسب هرتز (Hz) اندازه‌گیری می‌شود.
  • بلندی (شدت/انرژی): دامنه یا بلندی سیگنال گفتار. بر حسب دسی‌بل (dB) اندازه‌گیری می‌شود.
  • سرعت (سرعت گفتار): سرعت بیان، که اغلب بر حسب تعداد هجا در ثانیه اندازه‌گیری می‌شود.
این ویژگی‌ها به عنوان متغیرهای هدف برای مدل‌های پیش‌بین استفاده می‌شوند.

2.3 معماری مدل

مدل اصلی، یک شبکه حافظه بلند-کوتاه‌مدت است که بر روی جاسازی‌های جمله‌ای MPNet ساخته شده است. MPNet بازنمایی‌های غنی زمینه‌ای از متن ورودی فراهم می‌کند. سپس لایه LSTM وابستگی‌های ترتیبی در روایت را مدل‌سازی می‌کند تا مقادیر پیوسته زیروبمی، بلندی و سرعت را پیش‌بینی کند. این معماری به دلیل توانایی آن در ثبت سرنخ‌های زمینه‌ای بلندمدت که برای درک روایت ضروری است، انتخاب شده است.

3. یافته‌های کلیدی و تحلیل

3.1 الگوهای آهنگ گفتار در سطح شخصیت

یک یافته تجربی مهم این است که راویان انسانی به‌طور سیستماتیک آهنگ گفتار را بر اساس ویژگی‌های شخصیت و زمینه روایی تنظیم می‌کنند. تحلیل نشان می‌دهد:

  • در ۲۱ مورد از ۳۱ کتابی که دو شخصیت اصلی آن‌ها جنسیت متفاوتی دارند، راویان از زیروبمی پایین‌تر و بلندی بالاتر برای به تصویر کشیدن شخصیت مرد استفاده کردند.
  • راویان به‌طور مداوم در بخش‌های روایی در مقایسه با گفتگو، زیروبمی پایین‌تری استفاده می‌کنند، مستقل از جنسیت شخصیت.
این امر یک قاعده اجرای ضمنی مورد استفاده راویان حرفه‌ای را کمّی می‌کند و سیگنال واضحی برای یادگیری مدل‌ها فراهم می‌کند.

3.2 عملکرد مدل در مقابل سیستم‌های تجاری متن-به-گفتار

ویژگی‌های آهنگ گفتار پیش‌بینی‌شده توسط مدل پیشنهادی، همبستگی به‌مراتب بالاتری با خوانش انسانی نسبت به خروجی پیش‌فرض Google Cloud Text-to-Speech نشان می‌دهد.

  • زیروبمی: پیش‌بینی‌های مدل در ۲۲ مورد از ۲۴ کتاب در مجموعه آزمایشی، همبستگی بهتری با خوانش انسانی داشت.
  • بلندی: پیش‌بینی‌های مدل در ۲۳ مورد از ۲۴ کتاب همبستگی بهتری داشت.
این امر اثربخشی مدل را در ثبت الگوهای ظریف آهنگ گفتار انسانی که توسط سیستم‌های عمومی متن-به-گفتار نادیده گرفته می‌شود، نشان می‌دهد.

4. پیاده‌سازی فنی

4.1 فرمول‌بندی ریاضی

وظیفه پیش‌بینی آهنگ گفتار به عنوان یک مسئله رگرسیون قالب‌بندی شده است. با توجه به یک جمله ورودی $S$ که توسط جاسازی MPNet آن $\mathbf{e}_S$ نمایش داده می‌شود، مدل $f_\theta$ که توسط $\theta$ پارامتردهی شده است، یک بردار آهنگ گفتار $\mathbf{p}$ را پیش‌بینی می‌کند: $$\mathbf{p} = [\hat{pitch}, \hat{volume}, \hat{rate}]^T = f_\theta(\mathbf{e}_S)$$ مدل آموزش داده می‌شود تا خطای میانگین مربعات بین پیش‌بینی‌هایش $\hat{\mathbf{p}}$ و مقادیر واقعی آهنگ گفتار $\mathbf{p}_{gt}$ استخراج‌شده از صوت انسانی را کمینه کند: $$\mathcal{L}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \| \hat{\mathbf{p}}_i - \mathbf{p}_{gt,i} \|^2_2$$

4.2 جزئیات معماری LSTM

مدل ترتیبی اصلی یک سلول LSTM استاندارد است. در هر گام $t$ (متناظر با یک جمله)، حالت پنهان $\mathbf{h}_t$ و حالت سلول $\mathbf{c}_t$ خود را بر اساس ورودی $\mathbf{x}_t$ (جاسازی MPNet) و حالت‌های قبلی به‌روزرسانی می‌کند: $$\mathbf{i}_t = \sigma(\mathbf{W}_{xi}\mathbf{x}_t + \mathbf{W}_{hi}\mathbf{h}_{t-1} + \mathbf{b}_i)$$ $$\mathbf{f}_t = \sigma(\mathbf{W}_{xf}\mathbf{x}_t + \mathbf{W}_{hf}\mathbf{h}_{t-1} + \mathbf{b}_f)$$ $$\mathbf{o}_t = \sigma(\mathbf{W}_{xo}\mathbf{x}_t + \mathbf{W}_{ho}\mathbf{h}_{t-1} + \mathbf{b}_o)$$ $$\tilde{\mathbf{c}}_t = \tanh(\mathbf{W}_{xc}\mathbf{x}_t + \mathbf{W}_{hc}\mathbf{h}_{t-1} + \mathbf{b}_c)$$ $$\mathbf{c}_t = \mathbf{f}_t \odot \mathbf{c}_{t-1} + \mathbf{i}_t \odot \tilde{\mathbf{c}}_t$$ $$\mathbf{h}_t = \mathbf{o}_t \odot \tanh(\mathbf{c}_t)$$ که در آن $\sigma$ تابع سیگموید است، $\odot$ نشان‌دهنده ضرب درایه‌به‌درایه است، و $\mathbf{W}$ و $\mathbf{b}$ پارامترهای قابل یادگیری هستند. حالت پنهان نهایی $\mathbf{h}_t$ از طریق یک لایه کاملاً متصل عبور داده می‌شود تا پیش‌بینی سه‌بعدی آهنگ گفتار تولید شود.

5. نتایج آزمایشی

5.1 معیارهای همبستگی و شکل ۱

معیار ارزیابی اصلی، ضریب همبستگی (مانند r پیرسون) بین منحنی آهنگ گفتار پیش‌بینی‌شده و منحنی آهنگ گفتار خوانده‌شده توسط انسان در طول یک فصل است. شکل ۱ در مقاله، یک نمودار نقطه‌ای ارائه می‌دهد که همبستگی انسان-متن-به-گفتار را برای سیستم پیشنهادی و Google Cloud TTS در ۲۴ کتاب آزمایشی مقایسه می‌کند.

  • توضیح نمودار (شکل ۱الف - زیروبمی): محور x کتاب‌های مختلف را نشان می‌دهد. هر کتاب دو نقطه دارد: یکی برای همبستگی زیروبمی مدل پیشنهادی با خوانش انسانی، و دیگری برای همبستگی Google TTS. نمودار به‌طور بصری نشان می‌دهد که نقطه مدل (احتمالاً با رنگی متمایز) برای اکثریت قریب به اتفاق کتاب‌ها بالاتر از نقطه گوگل است که ادعای ۲۲/۲۴ را به صورت کمّی پشتیبانی می‌کند.
  • توضیح نمودار (شکل ۱ب - بلندی): یک نمودار نقطه‌ای مشابه برای همبستگی بلندی، که عملکرد حتی مسلط‌تری را توسط مدل پیشنهادی نشان می‌دهد و با نتیجه ۲۳/۲۴ مطابقت دارد.
این نمودارها شواهد بصری قوی از توانایی برتر مدل در تقلید آهنگ گفتار روایی انسانی ارائه می‌دهند.

5.2 مطالعه ارزیابی انسانی

فراتر از معیارهای همبستگی، یک مطالعه ارزیابی انسانی انجام شد. پیش‌بینی‌های آهنگ گفتار مدل برای تولید برچسب‌های SSML برای کنترل یک موتور متن-به-گفتار استفاده شد. به شنوندگان دو نسخه ارائه شد: صوت پیش‌فرض Google TTS و صوت بهبودیافته با SSML با استفاده از پیش‌بینی‌های مدل. نتایج ظریف بود: اکثریت کوچکی (۱۲ نفر از ۲۲ شرکت‌کننده) خوانش‌های بهبودیافته با SSML را ترجیح دادند، اما این ترجیح قاطع نبود. این امر پیچیدگی ارزیابی ذهنی کیفیت صوت را برجسته می‌کند و نشان می‌دهد که در حالی که مدل الگوهای عینی آهنگ گفتار را به خوبی ثبت می‌کند، ادغام بی‌درز آن‌ها در خروجی صوت نهایی همچنان یک چالش است.

6. چارچوب تحلیل و مطالعه موردی

چارچوب تحلیل آهنگ گفتار روایی:

  1. تقسیم‌بندی و حاشیه‌نویسی متن: رمان را به جملات تقسیم کنید. خطوط لوله پردازش زبان طبیعی را برای موارد زیر اجرا کنید:
    • تشخیص موجودیت نام‌دار برای شناسایی شخصیت‌ها.
    • انتساب نقل‌قول برای پیوند دادن گفتگو به شخصیت‌ها.
    • طبقه‌بندی متن برای برچسب‌زنی جملات به عنوان «روایی»، «گفتگو» یا «توصیف».
  2. مهندسی ویژگی زمینه‌ای: برای هر جمله، ویژگی‌هایی ایجاد کنید:
    • پرچم‌های دودویی: `is_dialogue`, `is_narrative`.
    • شناسه شخصیت گوینده (اگر در گفتگو باشد).
    • فراداده: جنسیت شخصیت (از پایگاه دانش خارجی).
    • جاسازی جمله (MPNet) که محتوای معنایی را ثبت می‌کند.
  3. استخراج برچسب آهنگ گفتار: از صوت هم‌تراز زمانی، زیروبمی (F0)، بلندی (انرژی RMS) و سرعت گفتار (هجا/مدت زمان) را برای هر جمله استخراج کنید.
  4. آموزش و استنتاج مدل: مدل LSTM (بخش ۴.۲) را روی جفت‌های {ویژگی‌ها → برچسب‌های آهنگ گفتار} آموزش دهید. برای متن جدید، مدل آموزش‌دیده را برای پیش‌بینی ویژگی‌های آهنگ گفتار اعمال کنید.
  5. تولید SSML و سنتز: زیروبمی پیش‌بینی‌شده (به عنوان یک ضریب نسبی، مثلاً `+20%`)، بلندی (مثلاً `+3dB`) و سرعت (مثلاً `slow`) را به برچسب‌های SSML تبدیل کنید. متن برچسب‌خورده را به یک موتور عصبی باکیفیت متن-به-گفتار (مانند Google، Amazon Polly) برای رندر نهایی صوت بدهید.
مطالعه موردی - اعمال چارچوب: جمله «'من هرگز برنمی‌گردم،' او با گستاخی گفت.» را در نظر بگیرید. چارچوب: ۱) آن را به عنوان گفتگوی یک شخصیت مرد («او») شناسایی می‌کند. ۲) مدل، با یادگیری این که گفتگوی مردان اغلب زیروبمی پایین‌تر و بلندی بالاتری نسبت به روایت دارد، ممکن است پیش‌بینی کند: `pitch_shift = -10%`, `volume_boost = +2dB`. ۳) این موارد به صورت SSML رندر می‌شوند: `من هرگز برنمی‌گردم، او با گستاخی گفت.`. گفتار مصنوعی حاصل، تأکید نمایشی مورد نظر را حمل خواهد کرد.

7. کاربردها و جهت‌های آینده

  • روایت شخصی‌سازی‌شده کتاب صوتی: کاربران می‌توانند با تنظیم دقیق مدل پیش‌بینی آهنگ گفتار روی کتاب‌های صوتی خوانده‌شده توسط راویان با آن سبک، یک «سبک راوی» (مانند «آرام»، «نمایشی»، «کنایه‌آمیز») انتخاب کنند.
  • داستان‌گویی تعاملی بلادرنگ: ادغام در موتورهای بازی یا پلتفرم‌های داستان‌های تعاملی، جایی که آهنگ گفتار به‌طور پویا بر اساس تنش روایی، روابط شخصیت‌ها و انتخاب‌های بازیکن تنظیم می‌شود.
  • دسترسی‌پذیری و یادگیری زبان: متن-به-گفتار بهبودیافته برای کاربران کم‌بینا، دسترسی جذاب‌تر و قابل فهم‌تری به ادبیات فراهم می‌کند. همچنین می‌تواند با ارائه مدل‌های تلفظ بیان‌گرتر و آگاه از زمینه، به زبان‌آموزان کمک کند.
  • ابزارهای خلاق بین‌حالتی: برای نویسندگان و تولیدکنندگان صوت، ابزارهایی که نشانه‌گذاری‌های آهنگ گفتار را در یک دستنویس پیشنهاد می‌دهند یا به‌طور خودکار پیش‌نویس‌های صوت بیان‌گر را برای بازبینی تولید می‌کنند.
  • جهت پژوهشی - احساس و عاطفه: گسترش مدل برای پیش‌بینی آهنگ گفتار عاطفی ریزدانه‌تر (مانند شادی، غم، خشم) با ترکیب تحلیل احساسات و تشخیص عاطفه از متن، مشابه تلاش‌ها در متن-به-گفتار عاطفی که در مؤسساتی مانند مؤسسه فناوری‌های زبان دانشگاه کارنگی ملون دیده می‌شود.
  • جهت پژوهشی - سیستم‌های سرتاسری: حرکت فراتر از کنترل پسینی SSML به سمت آموزش یک سیستم عصبی سرتاسری متن-به-گفتار (مانند Tacotron 2 یا FastSpeech 2) که در آن پیش‌بینی آهنگ گفتار بخشی جدایی‌ناپذیر و شرطی‌شده از مدل آکوستیک است و به طور بالقوه خروجی طبیعی‌تر و منسجم‌تری ایجاد می‌کند.

8. منابع

  1. Pethe, C., Pham, B., Childress, F. D., Yin, Y., & Skiena, S. (2025). Prosody Analysis of Audiobooks. arXiv preprint arXiv:2310.06930v3.
  2. Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
  3. Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780.
  4. Song, K., et al. (2020). MPNet: Masked and Permuted Pre-training for Language Understanding. Advances in Neural Information Processing Systems 33 (NeurIPS 2020).
  5. Google Cloud. (n.d.). Text-to-Speech. Retrieved from https://cloud.google.com/text-to-speech
  6. World Wide Web Consortium (W3C). (2010). Speech Synthesis Markup Language (SSML) Version 1.1. W3C Recommendation.
  7. Zen, H., et al. (2019). LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech. Interspeech 2019.

دیدگاه تحلیلگر: یک شالوده‌شکنی انتقادی

بینش اصلی: این مقاله صرفاً درباره این نیست که ربات‌ها را شبیه‌تر به انسان کنیم؛ بلکه یک بهره‌برداری هوشمندانه از یک مجموعه داده عظیم و کم‌استفاده‌شده — اجراهای انسانی کتاب‌های صوتی — برای مهندسی معکوس قواعد ضمنی ارائه روایت است. نویسندگان به درستی تشخیص می‌دهند که صنعت میلیارد دلاری کتاب صوتی، در واقع، یک مجموعه حاشیه‌نویسی پیش‌موجود عظیم برای گفتار بیان‌گر است. بینش کلیدی آن‌ها، برخورد با راوی به عنوان یک حسگر با وفاداری بالا برای عاطفه متنی است، مفهومی که مشابهت‌هایی با نحوه استفاده CycleGAN از مجموعه‌های تصویر جفت‌نشده برای یادگیری ترجمه سبک دارد — در اینجا، «سبک» اجرای آهنگ گفتار است.

جریان منطقی: منطق قانع‌کننده است: ۱) هم‌ترازی متن و صوت برای ایجاد یک مجموعه داده نظارت‌شده. ۲) استفاده از پردازش زبان طبیعی قوی (MPNet) برای درک متن. ۳) استفاده از یک مدل ترتیبی (LSTM) برای نگاشت زمینه به آهنگ گفتار. ۴) شکست دادن یک غول تجاری (گوگل) در بازی خودش بر اساس معیارهای همبستگی. جریان از ایجاد داده تا برتری مدل، تمیز و به خوبی توسط نرخ‌های برد ۲۲/۲۴ و ۲۳/۲۴ آن‌ها پشتیبانی می‌شود. با این حال، این زنجیره در آخرین حلقه حیاتی — ترجیح ذهنی شنونده — ضعیف می‌شود. نتیجه ۱۲/۲۲ از نظر آماری سست است و مشکل همیشگی «معیارهای خوب، تجربه متوسط» در صوت هوش مصنوعی را آشکار می‌کند.

نقاط قوت و ضعف: قدرت در مجموعه داده و برتری کمّی واضح نسبت به پایه متن-به-گفتار در ثبت منحنی‌های عینی آهنگ گفتار انکارناپذیر است. تحلیل سطح شخصیت (مرد در مقابل زن، روایت در مقابل گفتگو) گوهری از مشاهده تجربی است که هم اعتبارسنجی مدل و هم بینشی جذاب در مورد اجرای انسانی ارائه می‌دهد. ضعف اصلی، اتکا به هک پسینی SSML است. همانطور که هر مهندس صوت خواهد گفت، اعمال کنترل‌های آهنگ گفتار پس از وقوع بر روی یک صدای عمومی متن-به-گفتار، اغلب مصنوعی و گسسته به نظر می‌رسد — مانند استفاده از یک اکوالایزر گرافیکی روی یک ضبط ضعیف. نتایج ارزیابی انسانی این محدودیت را فریاد می‌زند. مدل نتایج درست را پیش‌بینی می‌کند، اما موتور سنتز نمی‌تواند آن‌ها را به درستی اجرا کند. یک رویکرد جاه‌طلبانه‌تر و سرتاسری، همانطور که توسط مدل‌هایی مانند FastSpeech 2 پیشگام شده است، گام بعدی ضروری اما دشوارتر است.

بینش‌های قابل اجرا: برای تیم‌های محصول، برداشت فوری، مجوز گرفتن یا ساخت بر اساس این مجموعه داده و مدل برای افزودن یک حالت «داستان‌گو» یا «بیان‌گر» به پیشنهادات موجود متن-به-گفتار است — یک ویژگی قابل اجرا در کوتاه‌مدت. برای پژوهشگران، مسیر دوگانه است: اول، ادغام مستقیم این پیش‌بینی آهنگ گفتار در مدل آکوستیک یک سیستم عصبی متن-به-گفتار، فراتر از SSML. دوم، گسترش تحلیل فراتر از سه ویژگی اصلی برای دربرگرفتن کیفیت صدا (نفس‌آلودگی، زمختی) و حالت‌های عاطفی ظریف‌تر، شاید با بهره‌گیری از منابعی مانند مجموعه MSP-Podcast برای تحلیل گفتار عاطفی. این مقاله با موفقیت یک رگه غنی از پژوهش را می‌شکافد؛ اکنون کار سخت پالایش سنگ معدن آغاز می‌شود.