انتخاب زبان

MultiActor-Audiobook: تولید صوتی کتاب با چهره‌ها و صداها به صورت Zero-Shot

تحلیل فنی MultiActor-Audiobook، یک سیستم نوین Zero-Shot برای تولید کتاب‌های صوتی بیانی با استفاده از پرسوناهای چندوجهی گوینده و دستورالعمل‌های مبتنی بر LLM.
audio-novel.com | PDF Size: 1.3 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - MultiActor-Audiobook: تولید صوتی کتاب با چهره‌ها و صداها به صورت Zero-Shot

1. مقدمه و مرور کلی

MultiActor-Audiobook یک چارچوب Zero-Shot برای تولید کتاب‌های صوتی بیانی با چندین گوینده متمایز ارائه می‌دهد. این سیستم محدودیت‌های کلیدی سیستم‌های قبلی را برطرف می‌کند: هزینه بالای مجموعه‌داده‌های گسترده صداپیشه، وابستگی دامنه‌ای مدل‌های آموزش‌دیده و ماهیت وقت‌گیر حاشیه‌نویسی دستی آهنگ گفتار. نوآوری اصلی آن در دو فرآیند خودکار و Zero-Shot نهفته است: تولید پرسونای چندوجهی گوینده (MSP) و تولید دستورالعمل‌های مبتنی بر LLM برای متن (LSI). با ترکیب صداهای خاص شخصیت از پرسوناهای تصویری تولیدشده و استنتاج پویای نشانه‌های عاطفی/آهنگ گفتار از زمینه متن، این سیستم هدف تولید کتاب‌های صوتی با روایت یکپارچه، مناسب و بیانی را بدون هیچ داده آموزشی خاص وظیفه دنبال می‌کند.

2. روش‌شناسی هسته‌ای

اثربخشی سیستم بر دو فرآیند نوین و به هم پیوسته استوار است که چالش‌برانگیزترین جنبه‌های تولید کتاب صوتی را خودکار می‌کنند: ایجاد صدای شخصیت و خوانش بیانی.

2.1 تولید پرسونای چندوجهی گوینده (MSP)

این فرآیند یک صدای منحصربه‌فرد و یکپارچه برای هر شخصیت در یک داستان تنها از توصیفات متنی ایجاد می‌کند.

  1. شناسایی موجودیت و استخراج پرسونای متنی: یک LLM (مانند GPT-4) متن رمان را تجزیه می‌کند تا تمام موجودیت‌های سخنگو (شخصیت‌ها، راوی) را شناسایی کند. برای هر یک، ویژگی‌های توصیفی (شخصیت، سن، نقش، ویژگی‌های فیزیکی) را از متن روایت استخراج می‌کند.
  2. تولید پرسونای تصویری: یک مدل متن-به-تصویر (مانند Stable Diffusion) از توصیف متنی استخراج‌شده برای تولید یک تصویر چهره استفاده می‌کند که شخصیت را به صورت بصری تجسم می‌دهد.
  3. ترکیب چهره-به-صدا: یک سیستم از پیش آموزش‌دیده چهره-به-صدا (با ارجاع به کارهایی مانند [14]) تصویر چهره تولیدشده و عنوان آن را می‌گیرد تا یک نمونه صوتی کوتاه ترکیب کند. این نمونه ویژگی‌های آهنگ گفتار متمایز شخصیت (طنین، خط پایه زیروبمی، سبک گفتار) را در بر می‌گیرد. این صدا به لنگرگاه تمام دیالوگ‌های بعدی آن شخصیت تبدیل می‌شود.
این خط لوله برای شخصیت‌های جدید کاملاً Zero-Shot است و به هیچ ضبط قبلی نیاز ندارد.

2.2 تولید دستورالعمل‌های مبتنی بر LLM برای متن (LSI)

برای جلوگیری از خوانش یکنواخت، این فرآیند دستورالعمل‌های آهنگ گفتار پویا در سطح جمله تولید می‌کند.

  1. تحلیل آگاه از زمینه: برای هر جمله‌ای که قرار است ترکیب شود، به LLM موارد زیر ارائه می‌شود: جمله هدف، زمینه اطراف (جملات قبلی/بعدی) و اطلاعات پرسونای گوینده فعلی.
  2. تولید دستورالعمل: LLM یک مجموعه ساختاریافته از دستورالعمل‌ها را خروجی می‌دهد که حالت عاطفی (مانند "شاد"، "غمگین")، لحن (مانند "طعنه‌آمیز"، "مقتدرانه")، تغییرات زیروبمی و سرعت گفتار مناسب برای زمینه و شخصیت را مشخص می‌کند.
  3. پرامپت‌دهی برای TTS: این دستورالعمل‌ها در قالب یک پرامپت زبان طبیعی (مانند "این را با لحن [حالت عاطفی] و تغییرات [زیروبمی] بگو") فرمت‌بندی می‌شوند که یک مدل از پیش آموزش‌دیده و قابل پرامپت متن-به-گفتار (TTS) را برای تولید صوت نهایی راهنمایی می‌کند.
این فرآیند، حاشیه‌نویسی دستی را با استنتاج خودکار و حساس به زمینه جایگزین می‌کند.

3. معماری فنی و جزئیات

3.1 خط لوله سیستم

گردش کار سرتاسری را می‌توان به صورت یک خط لوله ترتیبی تجسم کرد: متن رمان ورودی → LLM (شناسایی گوینده و استخراج پرسونا) → Text2Image (تولید چهره) → Face2Voice (نمونه صدا) → [برای هر شخصیت]
برای هر جمله: [جمله + زمینه + پرسونا] → LLM (LSI) → Prompt-TTS (با صدای شخصیت) → بخش صوتی خروجی
کتاب صوتی نهایی، الحاق زمانی خروجی تمام جملات پردازش‌شده است.

3.2 فرمول‌بندی ریاضی

فرآیند تولید هسته‌ای برای یک جمله $s_i$ که توسط شخصیت $c$ گفته می‌شود را می‌توان صوری کرد. فرض کنید $C$ پنجره زمینه اطراف $s_i$ باشد و $P_c$ پرسونای چندوجهی شخصیت $c$ باشد (شامل توصیف متنی $D_c$، چهره تولیدشده $F_c$ و نمونه صدا $V_c$).

فرآیند LSI یک بردار دستورالعمل $I_i$ تولید می‌کند: $$I_i = \text{LLM}_{\theta}(s_i, C, P_c)$$ که در آن $\text{LLM}_{\theta}$ مدل زبان بزرگ با پارامترهای $\theta$ است.

صوت نهایی $A_i$ برای جمله توسط یک مدل TTS قابل پرامپت $\text{TTS}_{\phi}$ ترکیب می‌شود، مشروط بر صدای شخصیت $V_c$ و دستورالعمل $I_i$: $$A_i = \text{TTS}_{\phi}(s_i | V_c, I_i)$$ قابلیت Zero-Shot سیستم از استفاده از مدل‌های از پیش آموزش‌دیده و ثابت ($\text{LLM}_{\theta}$, Text2Image, Face2Voice, $\text{TTS}_{\phi}$) بدون تنظیم دقیق ناشی می‌شود.

4. نتایج آزمایشی و ارزیابی

مقاله MultiActor-Audiobook را از طریق ارزیابی‌های مقایسه‌ای در برابر محصولات تجاری کتاب صوتی و مطالعات حذفی اعتبارسنجی می‌کند.

4.1 ارزیابی انسانی

ارزیابان انسانی نمونه‌های کتاب صوتی تولیدشده را بر اساس معیارهایی مانند بیان عاطفی، یکپارچگی گوینده و طبیعی بودن کلی ارزیابی کردند. MultiActor-Audiobook در مقایسه با خدمات کتاب صوتی تجاری مبتنی بر TTS، رتبه‌بندی‌های رقابتی یا برتر کسب کرد. قابل توجه است که از سیستم‌های پایه‌ای که از یک صدای واحد یا آهنگ گفتار ساده مبتنی بر قاعده استفاده می‌کردند، به ویژه در دیالوگ‌های شامل چندین شخصیت با پرسوناهای متمایز، عملکرد بهتری داشت.

4.2 ارزیابی MLLM

برای تکمیل ارزیابی انسانی، نویسندگان از مدل‌های زبان بزرگ چندوجهی (MLLM) مانند GPT-4V استفاده کردند. به MLLM صوت و توصیفی از صحنه/شخصیت ارائه شد و از آن خواسته شد تا قضاوت کند که آیا اجرای صوتی با زمینه مطابقت دارد یا خیر. این متریک عینی، توانایی سیستم در تولید آهنگ گفتار مناسب زمینه را به اندازه سیستم‌های تجاری تأیید کرد و اثربخشی ماژول LSI را اعتبارسنجی نمود.

4.3 مطالعات حذفی

مطالعات حذفی، سهم هر ماژول هسته‌ای را نشان داد:

  • بدون MSP (استفاده از یک صدای عمومی): یکپارچگی گوینده و تمایز شخصیت به طور قابل توجهی کاهش یافت و منجر به دیالوگ‌های گیج‌کننده شد.
  • بدون LSI (استفاده از TTS خنثی): صوت یکنواخت و از نظر عاطفی تخت شد و در معیارهای بیان امتیاز ضعیفی کسب کرد.
  • سیستم کامل (MSP + LSI): بالاترین امتیازات را در تمام ابعاد ارزیابی به دست آورد و ضرورت هم‌افزایی هر دو مؤلفه را اثبات کرد.
این نتایج به طور محکمی معماری دو فرآیندی پیشنهادی را توجیه می‌کنند.

5. چارچوب تحلیل و مطالعه موردی

کاربرد چارچوب: برای تحلیل یک رمان برای تولید، سیستم از یک چارچوب قطعی پیروی می‌کند. مطالعه موردی - گزیده‌ای از یک رمان فانتزی:

  1. ورودی: "جادوگر پیر، با ریشی بلند و خاکستری، هشدار زیرلبی داد. 'از سایه‌ها بپرهیز،' گفت، صدایش مانند سایش سنگ‌ها بود."
  2. اجرای MSP: LLM "جادوگر پیر" را به عنوان یک سخنگو شناسایی می‌کند. پرسونا را استخراج می‌کند: {سن: پیر، نقش: جادوگر، توصیفگر: ریش بلند و خاکستری، کیفیت صدا: مانند سایش سنگ‌ها}. Text2Image یک چهره پیر و چروکیده تولید می‌کند. Face2Voice یک نمونه صدای عمیق و خشن تولید می‌کند.
  3. اجرای LSI برای "از سایه‌ها بپرهیز": LLM جمله، زمینه (یک هشدار) و پرسونای جادوگر را دریافت می‌کند. دستورالعمل تولید می‌کند: {حالت عاطفی: نگرانی جدی، لحن: شوم و پایین، زیروبمی: پایین و ثابت، سرعت: آهسته}.
  4. خروجی: TTS قابل پرامپت، "از سایه‌ها بپرهیز" را با استفاده از صدای خشن جادوگر، به شیوه‌ای آهسته، شوم و با زیروبمی پایین ترکیب می‌کند.
این چارچوب نشان می‌دهد که چگونه نشانه‌های متنی بدون مداخله دستی به صوت چندوجهی و بیانی تبدیل می‌شوند.

6. تحلیل انتقادی و بینش تخصصی

بینش هسته‌ای: MultiActor-Audiobook فقط یک پوشش دیگر برای TTS نیست؛ بلکه یک چرخش استراتژیک از صوت تولیدی مبتنی بر داده به مبتنی بر پرامپت است. پیشرفت واقعی آن، درمان ایجاد کتاب صوتی به عنوان یک مسئله بازیابی زمینه چندوجهی و دنبال کردن دستورالعمل است که از منحنی‌های هزینه سرسام‌آور کلون‌سازی صدا و مدل‌سازی آهنگ گفتار سنتی عبور می‌کند. این با تغییر گسترده‌تر صنعت، که توسط مدل‌هایی مانند DALL-E و Stable Diffusion در بینایی نمونه‌ای از آن است، همسو است؛ جایی که ترکیب‌پذیری از بخش‌های از پیش آموزش‌دیده جایگزین آموزش مدل یکپارچه می‌شود.

جریان منطقی: منطق به زیبایی خطی است اما بر فرضیات شکننده استوار است. MSP فرض می‌کند که یک مدل چهره-به-صدا به طور قابل اعتمادی هر چهره تولیدشده را به یک صدای مناسب و یکپارچه نگاشت می‌کند—یک جهش ایمانی با توجه به چالش‌های شناخته شده در یادگیری بازنمایی چندوجهی (همان‌طور که در ناهماهنگی‌های بین فضای نهان تصویر و صوت در کارهایی مانند AudioCLIP دیده می‌شود). LSI فرض می‌کند که درک متنی یک LLM از "لحن غمگین" به طور کامل به پارامترهای آکوستیک در یک TTS پایین‌دستی ترجمه می‌شود—یک شکاف معنایی-آکوستیک که همچنان یک چالش اساسی باقی مانده است، همان‌طور که در ادبیات پردازش گفتار ذکر شده است.

نقاط قوت و ضعف: قدرت آن در کارایی اقتصادی و عملیاتی انکارناپذیر است: Zero-Shot، بدون سردردهای مجوز برای صداهای بازیگر، نمونه‌سازی اولیه سریع. ضعف آن در سقف کیفیت است. سیستم تنها به اندازه ضعیف‌ترین مؤلفه آماده آن—مدل Face2Voice و TTS قابل پرامپت—خوب است. با ظرافت و یکپارچگی بلندمدت دست و پنجه نرم خواهد کرد. آیا می‌تواند صدای شکسته از احساس یک شخصیت را که نیاز به کنترل زیرآوایی دارد، مدیریت کند؟ بعید است. وابستگی به پرسونای تصویری برای صدا نیز یک تقویت‌کننده بالقوه سوگیری است، موضوعی که به خوبی در اخلاق هوش مصنوعی تولیدی مستند شده است.

بینش‌های عملی: برای سرمایه‌گذاران و مدیران محصول، این یک MVP جذاب برای بازارهای خاص است: توسعه بازی‌های مستقل، بومی‌سازی سریع محتوا، سرگرمی-آموزشی شخصی‌سازی‌شده. با این حال، برای انتشارات جریان اصلی که به دنبال کیفیت رقابتی با انسان هستند، این یک مکمل است، نه جایگزین. نقشه راه فوری باید بر رویکردهای ترکیبی متمرکز شود: استفاده از این سیستم برای تولید یک کتاب صوتی "پیش‌نویس اول" غنی که یک کارگردان انسانی سپس می‌تواند به طور کارآمد آن را ویرایش و پرداخت کند، زمان تولید را ۸۰-۷۰٪ کاهش می‌دهد به جای هدف‌گیری ۱۰۰٪ اتوماسیون. اولویت تحقیقاتی باید بستن شکاف معنایی-آکوستیک از طریق فضاهای توکار مشترک بهتر باشد، شاید با الهام از تکنیک‌های همترازی استفاده‌شده در مدل‌های چندوجهی مانند Flamingo یا CM3.

7. کاربردهای آینده و جهت‌گیری‌ها

الگوی معرفی‌شده توسط MultiActor-Audiobook چندین مسیر را باز می‌کند:

  • رسانه‌های تعاملی و بازی‌سازی: تولید پویا و بلادرنگ دیالوگ شخصیت در بازی‌ها یا داستان‌های تعاملی بر اساس انتخاب‌های بازیکن و حالت‌های تکامل‌یابنده شخصیت.
  • دسترسی‌پذیری و آموزش: تبدیل فوری کتاب‌های درسی، اسناد یا داستان‌های کودکان شخصی‌سازی‌شده به روایت‌های جذاب و چندصدایی، که دسترسی‌پذیری را برای کاربران کم‌بینا به شدت افزایش می‌دهد یا مواد یادگیری غوطه‌ور ایجاد می‌کند.
  • بومی‌سازی محتوا: دوبله و گویندگی سریع برای محتوای ویدیویی با تولید صداهای مناسب از نظر فرهنگی و شخصیت در زبان‌های هدف، اگرچه این امر نیاز به بک‌اندهای TTS چندزبانه پیشرفته دارد.
  • جهت‌گیری‌های تحقیقاتی آینده:
    1. مدل‌سازی پیشرفته پرسونا: گنجاندن حالت‌های بیشتر (مانند اقدامات شخصیت، صداهای توصیف‌شده) فراتر از فقط چهره و توصیف متنی برای اطلاع‌رسانی به صدا و آهنگ گفتار.
    2. انسجام زمینه بلند: بهبود LSI برای حفظ یکپارچگی قوس روایی گسترده‌تر (مانند سقوط تدریجی عاطفی یک شخصیت) در سراسر یک کتاب کامل، نه فقط جملات محلی.
    3. پیش‌بینی مستقیم پارامترهای آکوستیک: حرکت فراتر از دستورالعمل‌های زبان طبیعی به سمت خروجی دادن LLM از اهداف مستقیم و قابل تفسیر ویژگی‌های آکوستیک (منحنی‌های F0، انرژی) برای کنترل ریزدانه‌تر، مشابه رویکرد در VALL-E اما در یک تنظیم Zero-Shot.
    4. طراحی صدای اخلاقی: توسعه چارچوب‌هایی برای حسابرسی و حذف سوگیری از مؤلفه‌های Face2Voice و تولید پرسونا برای جلوگیری از کلیشه‌سازی.
هدف نهایی یک موتور ترکیب "داستان-به-موسیقی متن" کاملاً تعمیم‌یافته، قابل کنترل و اخلاقی است.

8. مراجع

  1. Tan, X., et al. (2021). NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality. arXiv preprint arXiv:2105.04421.
  2. Wang, C., et al. (2023). Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers. arXiv preprint arXiv:2301.02111.
  3. Zhang, Y., et al. (2022). META-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech. IEEE/ACM Transactions on Audio, Speech, and Language Processing.
  4. Radford, A., et al. (2023). Robust Speech Recognition via Large-Scale Weak Supervision. Proceedings of ICML.
  5. Kim, J., et al. (2021). VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Proceedings of ICML.
  6. OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.
  7. Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the CVPR.
  8. Alayrac, J., et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. Advances in Neural Information Processing Systems.
  9. Park, K., Joo, S., & Jung, K. (2024). MultiActor-Audiobook: Zero-Shot Audiobook Generation with Faces and Voices of Multiple Speakers. Manuscript submitted for publication.
  10. Guzhov, A., et al. (2022). AudioCLIP: Extending CLIP to Image, Text and Audio. Proceedings of the ICASSP.