فهرست مطالب
1. مقدمه و مرور کلی
این مقاله پژوهشی با عنوان «تحلیل آهنگ گفتار کتابهای صوتی»، به شکاف مهمی در سیستمهای مدرن متن-به-گفتار میپردازد: ناتوانی در بازتولید بیانگری و لحنهای نمایشی مشخصه کتابهای صوتی روایتشده توسط انسان. در حالی که سیستمهای تجاری متن-به-گفتار در گفتار عمومی به طبیعیبودن بالایی دست یافتهاند، در مواجهه با متون روایی غنی از گفتگو، احساسات و توصیف دچار ضعف میشوند. تز اصلی این است که تحلیل پردازش زبان طبیعی سطح بالا — با تمرکز ویژه بر شناسایی شخصیتها، گفتگو و ساختار روایی — میتواند برای پیشبینی ویژگیهای آهنگ گفتار (زیروبمی، بلندی، سرعت گفتار) به کار گرفته شود و کیفیت کتابهای صوتی مصنوعی را بهطور چشمگیری بهبود بخشد.
این پژوهش یک مجموعه داده جدید شامل ۹۳ جفت کتاب و کتاب صوتی همتراز ارائه میدهد و نشان میدهد که مدلهای آموزشدیده روی این دادهها، در همبستگی با الگوهای آهنگ گفتار انسانی، از یک پایه تجاری پیشرفته متن-به-گفتار (Google Cloud TTS) عملکرد بهتری دارند.
93
جفت کتاب-کتاب صوتی همتراز
1806
فصل تحلیلشده
22/24
کتابها با پیشبینی بهتر زیروبمی
23/24
کتابها با پیشبینی بهتر بلندی
2. روششناسی و مجموعه داده
2.1 ساخت مجموعه داده
پایه این پژوهش، یک مجموعه داده با دقت گردآوریشده شامل ۹۳ رمان و کتابهای صوتی خواندهشده توسط انسان متناظر با آنها است. این مجموعه داده شامل ۱۸۰۶ فصل با همترازی در سطح جمله بین متن و صوت است که امکان تحلیل دقیق را فراهم میکند. این مجموعه داده بهصورت عمومی در دسترس قرار گرفته و منبعی ارزشمند برای جوامع گفتار و پردازش زبان طبیعی فراهم کرده است. فرآیند همترازی برای استخراج برچسبهای دقیق آهنگ گفتار (زیروبمی، بلندی، سرعت) برای هر جمله در متن حیاتی است.
2.2 استخراج ویژگیهای آهنگ گفتار
از کتابهای صوتی همترازشده، سه ویژگی اصلی آهنگ گفتار در سطح جمله استخراج میشود:
- زیروبمی (F0): بسامد پایه، نشاندهنده نرخ ارتعاش تارهای صوتی. بر حسب هرتز (Hz) اندازهگیری میشود.
- بلندی (شدت/انرژی): دامنه یا بلندی سیگنال گفتار. بر حسب دسیبل (dB) اندازهگیری میشود.
- سرعت (سرعت گفتار): سرعت بیان، که اغلب بر حسب تعداد هجا در ثانیه اندازهگیری میشود.
2.3 معماری مدل
مدل اصلی، یک شبکه حافظه بلند-کوتاهمدت است که بر روی جاسازیهای جملهای MPNet ساخته شده است. MPNet بازنماییهای غنی زمینهای از متن ورودی فراهم میکند. سپس لایه LSTM وابستگیهای ترتیبی در روایت را مدلسازی میکند تا مقادیر پیوسته زیروبمی، بلندی و سرعت را پیشبینی کند. این معماری به دلیل توانایی آن در ثبت سرنخهای زمینهای بلندمدت که برای درک روایت ضروری است، انتخاب شده است.
3. یافتههای کلیدی و تحلیل
3.1 الگوهای آهنگ گفتار در سطح شخصیت
یک یافته تجربی مهم این است که راویان انسانی بهطور سیستماتیک آهنگ گفتار را بر اساس ویژگیهای شخصیت و زمینه روایی تنظیم میکنند. تحلیل نشان میدهد:
- در ۲۱ مورد از ۳۱ کتابی که دو شخصیت اصلی آنها جنسیت متفاوتی دارند، راویان از زیروبمی پایینتر و بلندی بالاتر برای به تصویر کشیدن شخصیت مرد استفاده کردند.
- راویان بهطور مداوم در بخشهای روایی در مقایسه با گفتگو، زیروبمی پایینتری استفاده میکنند، مستقل از جنسیت شخصیت.
3.2 عملکرد مدل در مقابل سیستمهای تجاری متن-به-گفتار
ویژگیهای آهنگ گفتار پیشبینیشده توسط مدل پیشنهادی، همبستگی بهمراتب بالاتری با خوانش انسانی نسبت به خروجی پیشفرض Google Cloud Text-to-Speech نشان میدهد.
- زیروبمی: پیشبینیهای مدل در ۲۲ مورد از ۲۴ کتاب در مجموعه آزمایشی، همبستگی بهتری با خوانش انسانی داشت.
- بلندی: پیشبینیهای مدل در ۲۳ مورد از ۲۴ کتاب همبستگی بهتری داشت.
4. پیادهسازی فنی
4.1 فرمولبندی ریاضی
وظیفه پیشبینی آهنگ گفتار به عنوان یک مسئله رگرسیون قالببندی شده است. با توجه به یک جمله ورودی $S$ که توسط جاسازی MPNet آن $\mathbf{e}_S$ نمایش داده میشود، مدل $f_\theta$ که توسط $\theta$ پارامتردهی شده است، یک بردار آهنگ گفتار $\mathbf{p}$ را پیشبینی میکند: $$\mathbf{p} = [\hat{pitch}, \hat{volume}, \hat{rate}]^T = f_\theta(\mathbf{e}_S)$$ مدل آموزش داده میشود تا خطای میانگین مربعات بین پیشبینیهایش $\hat{\mathbf{p}}$ و مقادیر واقعی آهنگ گفتار $\mathbf{p}_{gt}$ استخراجشده از صوت انسانی را کمینه کند: $$\mathcal{L}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \| \hat{\mathbf{p}}_i - \mathbf{p}_{gt,i} \|^2_2$$
4.2 جزئیات معماری LSTM
مدل ترتیبی اصلی یک سلول LSTM استاندارد است. در هر گام $t$ (متناظر با یک جمله)، حالت پنهان $\mathbf{h}_t$ و حالت سلول $\mathbf{c}_t$ خود را بر اساس ورودی $\mathbf{x}_t$ (جاسازی MPNet) و حالتهای قبلی بهروزرسانی میکند: $$\mathbf{i}_t = \sigma(\mathbf{W}_{xi}\mathbf{x}_t + \mathbf{W}_{hi}\mathbf{h}_{t-1} + \mathbf{b}_i)$$ $$\mathbf{f}_t = \sigma(\mathbf{W}_{xf}\mathbf{x}_t + \mathbf{W}_{hf}\mathbf{h}_{t-1} + \mathbf{b}_f)$$ $$\mathbf{o}_t = \sigma(\mathbf{W}_{xo}\mathbf{x}_t + \mathbf{W}_{ho}\mathbf{h}_{t-1} + \mathbf{b}_o)$$ $$\tilde{\mathbf{c}}_t = \tanh(\mathbf{W}_{xc}\mathbf{x}_t + \mathbf{W}_{hc}\mathbf{h}_{t-1} + \mathbf{b}_c)$$ $$\mathbf{c}_t = \mathbf{f}_t \odot \mathbf{c}_{t-1} + \mathbf{i}_t \odot \tilde{\mathbf{c}}_t$$ $$\mathbf{h}_t = \mathbf{o}_t \odot \tanh(\mathbf{c}_t)$$ که در آن $\sigma$ تابع سیگموید است، $\odot$ نشاندهنده ضرب درایهبهدرایه است، و $\mathbf{W}$ و $\mathbf{b}$ پارامترهای قابل یادگیری هستند. حالت پنهان نهایی $\mathbf{h}_t$ از طریق یک لایه کاملاً متصل عبور داده میشود تا پیشبینی سهبعدی آهنگ گفتار تولید شود.
5. نتایج آزمایشی
5.1 معیارهای همبستگی و شکل ۱
معیار ارزیابی اصلی، ضریب همبستگی (مانند r پیرسون) بین منحنی آهنگ گفتار پیشبینیشده و منحنی آهنگ گفتار خواندهشده توسط انسان در طول یک فصل است. شکل ۱ در مقاله، یک نمودار نقطهای ارائه میدهد که همبستگی انسان-متن-به-گفتار را برای سیستم پیشنهادی و Google Cloud TTS در ۲۴ کتاب آزمایشی مقایسه میکند.
- توضیح نمودار (شکل ۱الف - زیروبمی): محور x کتابهای مختلف را نشان میدهد. هر کتاب دو نقطه دارد: یکی برای همبستگی زیروبمی مدل پیشنهادی با خوانش انسانی، و دیگری برای همبستگی Google TTS. نمودار بهطور بصری نشان میدهد که نقطه مدل (احتمالاً با رنگی متمایز) برای اکثریت قریب به اتفاق کتابها بالاتر از نقطه گوگل است که ادعای ۲۲/۲۴ را به صورت کمّی پشتیبانی میکند.
- توضیح نمودار (شکل ۱ب - بلندی): یک نمودار نقطهای مشابه برای همبستگی بلندی، که عملکرد حتی مسلطتری را توسط مدل پیشنهادی نشان میدهد و با نتیجه ۲۳/۲۴ مطابقت دارد.
5.2 مطالعه ارزیابی انسانی
فراتر از معیارهای همبستگی، یک مطالعه ارزیابی انسانی انجام شد. پیشبینیهای آهنگ گفتار مدل برای تولید برچسبهای SSML برای کنترل یک موتور متن-به-گفتار استفاده شد. به شنوندگان دو نسخه ارائه شد: صوت پیشفرض Google TTS و صوت بهبودیافته با SSML با استفاده از پیشبینیهای مدل. نتایج ظریف بود: اکثریت کوچکی (۱۲ نفر از ۲۲ شرکتکننده) خوانشهای بهبودیافته با SSML را ترجیح دادند، اما این ترجیح قاطع نبود. این امر پیچیدگی ارزیابی ذهنی کیفیت صوت را برجسته میکند و نشان میدهد که در حالی که مدل الگوهای عینی آهنگ گفتار را به خوبی ثبت میکند، ادغام بیدرز آنها در خروجی صوت نهایی همچنان یک چالش است.
6. چارچوب تحلیل و مطالعه موردی
چارچوب تحلیل آهنگ گفتار روایی:
- تقسیمبندی و حاشیهنویسی متن: رمان را به جملات تقسیم کنید. خطوط لوله پردازش زبان طبیعی را برای موارد زیر اجرا کنید:
- تشخیص موجودیت نامدار برای شناسایی شخصیتها.
- انتساب نقلقول برای پیوند دادن گفتگو به شخصیتها.
- طبقهبندی متن برای برچسبزنی جملات به عنوان «روایی»، «گفتگو» یا «توصیف».
- مهندسی ویژگی زمینهای: برای هر جمله، ویژگیهایی ایجاد کنید:
- پرچمهای دودویی: `is_dialogue`, `is_narrative`.
- شناسه شخصیت گوینده (اگر در گفتگو باشد).
- فراداده: جنسیت شخصیت (از پایگاه دانش خارجی).
- جاسازی جمله (MPNet) که محتوای معنایی را ثبت میکند.
- استخراج برچسب آهنگ گفتار: از صوت همتراز زمانی، زیروبمی (F0)، بلندی (انرژی RMS) و سرعت گفتار (هجا/مدت زمان) را برای هر جمله استخراج کنید.
- آموزش و استنتاج مدل: مدل LSTM (بخش ۴.۲) را روی جفتهای {ویژگیها → برچسبهای آهنگ گفتار} آموزش دهید. برای متن جدید، مدل آموزشدیده را برای پیشبینی ویژگیهای آهنگ گفتار اعمال کنید.
- تولید SSML و سنتز: زیروبمی پیشبینیشده (به عنوان یک ضریب نسبی، مثلاً `+20%`)، بلندی (مثلاً `+3dB`) و سرعت (مثلاً `slow`) را به برچسبهای SSML تبدیل کنید. متن برچسبخورده را به یک موتور عصبی باکیفیت متن-به-گفتار (مانند Google، Amazon Polly) برای رندر نهایی صوت بدهید.
7. کاربردها و جهتهای آینده
- روایت شخصیسازیشده کتاب صوتی: کاربران میتوانند با تنظیم دقیق مدل پیشبینی آهنگ گفتار روی کتابهای صوتی خواندهشده توسط راویان با آن سبک، یک «سبک راوی» (مانند «آرام»، «نمایشی»، «کنایهآمیز») انتخاب کنند.
- داستانگویی تعاملی بلادرنگ: ادغام در موتورهای بازی یا پلتفرمهای داستانهای تعاملی، جایی که آهنگ گفتار بهطور پویا بر اساس تنش روایی، روابط شخصیتها و انتخابهای بازیکن تنظیم میشود.
- دسترسیپذیری و یادگیری زبان: متن-به-گفتار بهبودیافته برای کاربران کمبینا، دسترسی جذابتر و قابل فهمتری به ادبیات فراهم میکند. همچنین میتواند با ارائه مدلهای تلفظ بیانگرتر و آگاه از زمینه، به زبانآموزان کمک کند.
- ابزارهای خلاق بینحالتی: برای نویسندگان و تولیدکنندگان صوت، ابزارهایی که نشانهگذاریهای آهنگ گفتار را در یک دستنویس پیشنهاد میدهند یا بهطور خودکار پیشنویسهای صوت بیانگر را برای بازبینی تولید میکنند.
- جهت پژوهشی - احساس و عاطفه: گسترش مدل برای پیشبینی آهنگ گفتار عاطفی ریزدانهتر (مانند شادی، غم، خشم) با ترکیب تحلیل احساسات و تشخیص عاطفه از متن، مشابه تلاشها در متن-به-گفتار عاطفی که در مؤسساتی مانند مؤسسه فناوریهای زبان دانشگاه کارنگی ملون دیده میشود.
- جهت پژوهشی - سیستمهای سرتاسری: حرکت فراتر از کنترل پسینی SSML به سمت آموزش یک سیستم عصبی سرتاسری متن-به-گفتار (مانند Tacotron 2 یا FastSpeech 2) که در آن پیشبینی آهنگ گفتار بخشی جداییناپذیر و شرطیشده از مدل آکوستیک است و به طور بالقوه خروجی طبیعیتر و منسجمتری ایجاد میکند.
8. منابع
- Pethe, C., Pham, B., Childress, F. D., Yin, Y., & Skiena, S. (2025). Prosody Analysis of Audiobooks. arXiv preprint arXiv:2310.06930v3.
- Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
- Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780.
- Song, K., et al. (2020). MPNet: Masked and Permuted Pre-training for Language Understanding. Advances in Neural Information Processing Systems 33 (NeurIPS 2020).
- Google Cloud. (n.d.). Text-to-Speech. Retrieved from https://cloud.google.com/text-to-speech
- World Wide Web Consortium (W3C). (2010). Speech Synthesis Markup Language (SSML) Version 1.1. W3C Recommendation.
- Zen, H., et al. (2019). LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech. Interspeech 2019.
دیدگاه تحلیلگر: یک شالودهشکنی انتقادی
بینش اصلی: این مقاله صرفاً درباره این نیست که رباتها را شبیهتر به انسان کنیم؛ بلکه یک بهرهبرداری هوشمندانه از یک مجموعه داده عظیم و کماستفادهشده — اجراهای انسانی کتابهای صوتی — برای مهندسی معکوس قواعد ضمنی ارائه روایت است. نویسندگان به درستی تشخیص میدهند که صنعت میلیارد دلاری کتاب صوتی، در واقع، یک مجموعه حاشیهنویسی پیشموجود عظیم برای گفتار بیانگر است. بینش کلیدی آنها، برخورد با راوی به عنوان یک حسگر با وفاداری بالا برای عاطفه متنی است، مفهومی که مشابهتهایی با نحوه استفاده CycleGAN از مجموعههای تصویر جفتنشده برای یادگیری ترجمه سبک دارد — در اینجا، «سبک» اجرای آهنگ گفتار است.
جریان منطقی: منطق قانعکننده است: ۱) همترازی متن و صوت برای ایجاد یک مجموعه داده نظارتشده. ۲) استفاده از پردازش زبان طبیعی قوی (MPNet) برای درک متن. ۳) استفاده از یک مدل ترتیبی (LSTM) برای نگاشت زمینه به آهنگ گفتار. ۴) شکست دادن یک غول تجاری (گوگل) در بازی خودش بر اساس معیارهای همبستگی. جریان از ایجاد داده تا برتری مدل، تمیز و به خوبی توسط نرخهای برد ۲۲/۲۴ و ۲۳/۲۴ آنها پشتیبانی میشود. با این حال، این زنجیره در آخرین حلقه حیاتی — ترجیح ذهنی شنونده — ضعیف میشود. نتیجه ۱۲/۲۲ از نظر آماری سست است و مشکل همیشگی «معیارهای خوب، تجربه متوسط» در صوت هوش مصنوعی را آشکار میکند.
نقاط قوت و ضعف: قدرت در مجموعه داده و برتری کمّی واضح نسبت به پایه متن-به-گفتار در ثبت منحنیهای عینی آهنگ گفتار انکارناپذیر است. تحلیل سطح شخصیت (مرد در مقابل زن، روایت در مقابل گفتگو) گوهری از مشاهده تجربی است که هم اعتبارسنجی مدل و هم بینشی جذاب در مورد اجرای انسانی ارائه میدهد. ضعف اصلی، اتکا به هک پسینی SSML است. همانطور که هر مهندس صوت خواهد گفت، اعمال کنترلهای آهنگ گفتار پس از وقوع بر روی یک صدای عمومی متن-به-گفتار، اغلب مصنوعی و گسسته به نظر میرسد — مانند استفاده از یک اکوالایزر گرافیکی روی یک ضبط ضعیف. نتایج ارزیابی انسانی این محدودیت را فریاد میزند. مدل نتایج درست را پیشبینی میکند، اما موتور سنتز نمیتواند آنها را به درستی اجرا کند. یک رویکرد جاهطلبانهتر و سرتاسری، همانطور که توسط مدلهایی مانند FastSpeech 2 پیشگام شده است، گام بعدی ضروری اما دشوارتر است.
بینشهای قابل اجرا: برای تیمهای محصول، برداشت فوری، مجوز گرفتن یا ساخت بر اساس این مجموعه داده و مدل برای افزودن یک حالت «داستانگو» یا «بیانگر» به پیشنهادات موجود متن-به-گفتار است — یک ویژگی قابل اجرا در کوتاهمدت. برای پژوهشگران، مسیر دوگانه است: اول، ادغام مستقیم این پیشبینی آهنگ گفتار در مدل آکوستیک یک سیستم عصبی متن-به-گفتار، فراتر از SSML. دوم، گسترش تحلیل فراتر از سه ویژگی اصلی برای دربرگرفتن کیفیت صدا (نفسآلودگی، زمختی) و حالتهای عاطفی ظریفتر، شاید با بهرهگیری از منابعی مانند مجموعه MSP-Podcast برای تحلیل گفتار عاطفی. این مقاله با موفقیت یک رگه غنی از پژوهش را میشکافد؛ اکنون کار سخت پالایش سنگ معدن آغاز میشود.