জে-ম্যাক: স্পিচ সিন্থেসিসের জন্য জাপানি মাল্টি-স্পিকার অডিওবুক কর্পাস

1. ভূমিকা

এই গবেষণাপত্রটি জে-ম্যাক (জাপানি মাল্টি-স্পিকার অডিওবুক কর্পাস) উপস্থাপন করে, যা একটি অভিনব স্পিচ কর্পাস, বিশেষভাবে অডিওবুক প্রয়োগের জন্য অভিব্যক্তিপূর্ণ, প্রসঙ্গ-সচেতন স্পিচ সিন্থেসিস গবেষণাকে এগিয়ে নেওয়ার জন্য নকশা করা হয়েছে। লেখকরা যুক্তি দেখান যে যদিও পাঠ-শৈলীর টিটিএস মানব-সদৃশ মানের কাছাকাছি পৌঁছেছে, পরবর্তী সীমান্তটি জড়িত রয়েছে জটিল, বাক্যসীমা অতিক্রমী প্রসঙ্গ, বক্তা-নির্দিষ্ট অভিব্যক্তিপূর্ণতা এবং আখ্যানের প্রবাহ পরিচালনার সাথে—যা সবই আকর্ষণীয় অডিওবুক তৈরির জন্য অত্যন্ত গুরুত্বপূর্ণ। উচ্চমানের, বহু-বক্তা অডিওবুক কর্পাসের অভাব একটি উল্লেখযোগ্য বাধা ছিল। জে-ম্যাক পেশাদার বর্ণনাকারীদের দ্বারা পাঠ করা বাণিজ্যিকভাবে উপলব্ধ অডিওবুক থেকে স্বয়ংক্রিয়ভাবে এমন একটি কর্পাস নির্মাণের একটি পদ্ধতি প্রদান করে এই সমস্যার সমাধান করে, ফলে প্রাপ্ত ডেটাসেটটি ওপেন-সোর্স করা হয়।

2. কর্পাস নির্মাণ

নির্মাণ পাইপলাইনটি স্বয়ংক্রিয়তা এবং ভাষা-স্বাধীনতার জন্য নকশা করা একটি তিন-পর্যায়ের প্রক্রিয়া।

2.1 তথ্য সংগ্রহ

অডিওবুক নির্বাচন করা হয় দুটি প্রাথমিক মানদণ্ডের ভিত্তিতে: ১) সঠিক রেফারেন্স টেক্সটের প্রাপ্যতা (পছন্দসই হলো কপিরাইট-মুক্ত উপন্যাস যাতে নামকৃত সত্তার উপর এএসআর ত্রুটি এড়ানো যায়), এবং ২) বিভিন্ন পেশাদার বক্তা দ্বারা বর্ণিত একাধিক সংস্করণের অস্তিত্ব যাতে বৈচিত্র্যময় অভিব্যক্তিপূর্ণ শৈলী ধরা পড়ে। এটি একক বক্তার বিপুল পরিমাণ ডেটার চেয়ে বক্তার বৈচিত্র্যকে অগ্রাধিকার দেয়।

2.2 তথ্য পরিশোধন ও সংযোজন

কাঁচা অডিও পরিশুদ্ধ স্পিচ সেগমেন্ট নিষ্কাশন এবং সেগুলোকে সংশ্লিষ্ট টেক্সটের সাথে সুনির্দিষ্টভাবে সংযোজিত করার জন্য প্রক্রিয়াজাত করা হয়। এতে উৎস পৃথকীকরণ, কানেকশনিস্ট টেম্পোরাল ক্লাসিফিকেশন (সিটিসি) ব্যবহার করে মোটামুটি সংযোজন এবং ভয়েস অ্যাক্টিভিটি ডিটেকশন (ভিএডি) ব্যবহার করে সূক্ষ্ম-পরিমার্জন জড়িত।

3. প্রযুক্তিগত পদ্ধতি

3.1 কণ্ঠ-বাদ্যযন্ত্র পৃথকীকরণ

অডিওবুক প্রোডাকশনে সম্ভাব্য ব্যাকগ্রাউন্ড সঙ্গীত বা সাউন্ড ইফেক্ট থেকে পরিশুদ্ধ স্পিচ আলাদা করার জন্য, একটি উৎস পৃথকীকরণ মডেল (যেমন ডিপ ক্লাস্টারিং বা কনভ-ট্যাসনেট ভিত্তিক মডেল) ব্যবহার করা হয়। সিন্থেসিস মডেলের জন্য উচ্চ-নিষ্ঠা প্রশিক্ষণ ডেটা পাওয়ার জন্য এই ধাপটি অত্যন্ত গুরুত্বপূর্ণ।

3.2 সিটিসি-ভিত্তিক সংযোজন

একটি সিটিসি-প্রশিক্ষিত এএসআর মডেল অডিও ওয়েভফর্ম এবং টেক্সট ক্রমের মধ্যে একটি প্রাথমিক, মোটামুটি সংযোজন প্রদান করে। সিটিসি লস ফাংশন $\mathcal{L}_{CTC} = -\log P(\mathbf{y}|\mathbf{x})$, যেখানে $\mathbf{x}$ হলো ইনপুট ক্রম এবং $\mathbf{y}$ হলো টার্গেট লেবেল ক্রম, এটি জোরপূর্বক সেগমেন্টেশন ছাড়াই সংযোজন সম্ভব করে।

3.3 ভিএডি-ভিত্তিক পরিমার্জন

মোটামুটি সিটিসি সংযোজনগুলো একটি ভয়েস অ্যাক্টিভিটি ডিটেকশন সিস্টেম ব্যবহার করে পরিমার্জন করা হয়। এই ধাপটি অ-স্পিচ সেগমেন্ট (বিরতি, নিঃশ্বাস) অপসারণ করে এবং প্রতিটি অডিও সেগমেন্ট একটি টেক্সট ইউনিটের (যেমন, একটি বাক্য) সাথে সঠিকভাবে মিলছে তা নিশ্চিত করতে সীমানা সামঞ্জস্য করে, ফলে টেক্সট-অডিও জোড়ার নির্ভুলতা উন্নত করে।

4. পরীক্ষামূলক ফলাফল ও মূল্যায়ন

লেখকরা জে-ম্যাক-এ প্রশিক্ষিত মডেল ব্যবহার করে অডিওবুক স্পিচ সিন্থেসিস মূল্যায়ন পরিচালনা করেন। মূল ফলাফলগুলোর মধ্যে রয়েছে:

মডেল উন্নতি সাধারণীকরণযোগ্য: সিন্থেসিস আর্কিটেকচারে উন্নতি কর্পাসের বিভিন্ন বক্তার আউটপুট স্পিচের স্বাভাবিকতা উন্নত করেছে।
জটিলভাবে জড়িত উপাদান: অনুভূত স্বাভাবিকতা সিন্থেসিস পদ্ধতি, বক্তার কণ্ঠস্বরের বৈশিষ্ট্য এবং বইয়ের বিষয়বস্তুর মধ্যে একটি জটিল মিথস্ক্রিয়া দ্বারা প্রবলভাবে প্রভাবিত হয়েছিল। এই উপাদানগুলোর বিচ্ছিন্নতা এখনও একটি চ্যালেঞ্জ।

চার্ট বর্ণনা (অন্তর্নিহিত): একটি প্রকল্পিত বার চার্ট বিভিন্ন সিন্থেসিস সিস্টেম (যেমন, ট্যাকোট্রন২, ফাস্টস্পিচ২) এবং বিভিন্ন জে-ম্যাক বক্তার জন্য স্বাভাবিকতার গড় মতামত স্কোর (এমওএস) দেখাবে। চার্টটি সম্ভবত একই মডেলের জন্য বক্তাদের মধ্যে ভিন্নতা এবং সকল বক্তার জন্য উন্নত মডেলগুলোর জন্য সামঞ্জস্যপূর্ণ উন্নতি প্রবণতা দেখাবে, যা দৃশ্যত দুটি মূল অন্তর্দৃষ্টি নিশ্চিত করবে।

5. মূল অন্তর্দৃষ্টি ও আলোচনা

জে-ম্যাক সফলভাবে অভিব্যক্তিপূর্ণ স্পিচ কর্পাস তৈরির জন্য একটি স্কেলযোগ্য, স্বয়ংক্রিয় পাইপলাইন প্রদান করে।
বহু-বক্তা, একই-বই নকশা বক্তার পরিচয় এবং অভিব্যক্তিপূর্ণতা অধ্যয়নের জন্য একটি অনন্য শক্তি।
মূল্যায়নটি নির্দেশ করে যে ভবিষ্যতের অডিওবুক টিটিএস মডেলগুলোর অবশ্যই বিষয়বস্তু, বক্তা এবং শৈলীর জটিলভাবে জড়িত প্রকৃতির হিসাব রাখতে হবে।

6. মূল বিশ্লেষণ: শিল্প দৃষ্টিকোণ

মূল অন্তর্দৃষ্টি: জে-ম্যাক গবেষণাপত্রটি শুধুমাত্র একটি নতুন ডেটাসেট সম্পর্কে নয়; এটি টিটিএস প্যারাডাইমকে বিচ্ছিন্ন উচ্চারণ উৎপাদন থেকে আখ্যান বুদ্ধিমত্তা-তে স্থানান্তরের একটি কৌশলগত পদক্ষেপ। ওয়েভনেট এবং ট্যাকোট্রনের মতো মডেলগুলো নিষ্ঠা জয় করলেও, তারা মূলত স্পিচের বৃহৎ কাঠামোকে উপেক্ষা করেছে। জে-ম্যাক, একাধিক পেশাদার বক্তার সমান্তরাল আখ্যান সরবরাহ করে, মডেলগুলোর জন্য শুধু কীভাবে কথা বলতে হয় তা নয়, কীভাবে একটি গল্প উপস্থাপন করতে হয় তা শেখার জন্য প্রয়োজনীয় ভিত্তি। এটি গুগলের অডিওএলএম গবেষণাপত্রের মতো কাজে দেখা বৃহত্তর শিল্প প্রবণতার সাথে সামঞ্জস্যপূর্ণ, যা অডিওকে একটি প্রসঙ্গ-সচেতন, শ্রেণিবদ্ধ পদ্ধতিতে মডেল করতে চায়।

যুক্তিসঙ্গত প্রবাহ: লেখকরা সঠিকভাবে ডেটা বাধা চিহ্নিত করেছেন। তাদের সমাধানটি বাস্তববাদী: নতুন রেকর্ডিং কমিশন করার পরিবর্তে বিদ্যমান, উচ্চমানের শৈল্পিক প্রোডাকশন (অডিওবুক) খনন করা। প্রযুক্তিগত পাইপলাইনটি চতুর—একটি নির্দিষ্ট, উচ্চ-মূল্যের লক্ষ্যের জন্য একটি অভিনব সংমিশ্রণে পরিপক্ক প্রযুক্তি (সিটিসি, ভিএডি) ব্যবহার করা। তারপর মূল্যায়ন এই নতুন সম্পদ ব্যবহার করে একটি সমালোচনামূলক, সুস্পষ্ট নয় এমন ফলাফল প্রকাশ করে: অভিব্যক্তিপূর্ণ সিন্থেসিসে, আপনি একটি বক্তা-নিরপেক্ষ "সেরা মডেল" এর জন্য অপ্টিমাইজ করতে পারবেন না। পারফরম্যান্স বক্তার পরিচয়ের সাথে অবিচ্ছেদ্যভাবে যুক্ত।

শক্তি ও ত্রুটি: প্রধান শক্তি হলো কর্পাস নকশা নীতি। পেশাদার বক্তা এবং একই-টেক্সট তুলনার পছন্দ নিয়ন্ত্রণযোগ্যতা অধ্যয়নের জন্য উজ্জ্বল। স্বয়ংক্রিয় পাইপলাইনটি পুনরুৎপাদনযোগ্যতার জন্য একটি উল্লেখযোগ্য অবদান। যাইহোক, গবেষণাপত্রের ত্রুটি হলো এর প্রাথমিক মূল্যায়ন। "জটিলভাবে জড়িত উপাদান" অন্তর্দৃষ্টিটি অত্যন্ত গুরুত্বপূর্ণ কিন্তু শুধু উল্লেখ করা হয়েছে। একটি গভীর বিশ্লেষণ, সম্ভবত স্টাইল ট্রান্সফার সাহিত্য থেকে কৌশল ব্যবহার করে (যেমন গ্লোবাল স্টাইল টোকেনস-এ এনকোডার আর্কিটেকচার বা সাইকেলজিএএন-ভিসি-তে অনুসন্ধান করা বিচ্ছিন্নতা পদ্ধতি), প্রয়োজন। বৈচিত্র্যের কতটুকু অ্যাকোস্টিক টিম্ব্র বনাম প্রোসোডিক শৈলী বনাম শব্দার্থিক ব্যাখ্যার কারণে? গবেষণাপত্রটি দরজা খুলে দেয় কিন্তু এর মধ্য দিয়ে হাঁটে না।

কার্যকরী অন্তর্দৃষ্টি: গবেষকদের জন্য: বিচ্ছিন্নতা কৌশলগুলোর বেঞ্চমার্ক করার জন্য জে-ম্যাক ব্যবহার করুন। পণ্য দলগুলোর জন্য: এই কাজটি ইঙ্গিত দেয় যে পডকাস্ট, বিজ্ঞাপন এবং বইয়ের জন্য ভয়েস এআই-এর পরবর্তী প্রজন্ম আরও পাঠ-শৈলীর ডেটা থেকে নয়, বরং আখ্যান পারফরম্যান্স ডেটা থেকে আসবে। অভিব্যক্তিপূর্ণ, দীর্ঘ-ফর্ম ডেটাসেট কিউরেট করা শুরু করুন। পদ্ধতিটি নিজেই রপ্তানিযোগ্য—কল্পনা করুন একটি "পডকাস্টের জন্য জে-ম্যাক" বা "মুভি ট্রেলারের জন্য জে-ম্যাক"। মূল শিক্ষা হলো যে ফাউন্ডেশন মডেলের যুগে, জে-ম্যাক-এর মতো একটি অনন্য কাঠামোবদ্ধ, উচ্চমানের ডেটাসেটের কৌশলগত মূল্য এর পাশাপাশি প্রকাশিত যেকোনো একক মডেল আর্কিটেকচারের চেয়ে বেশি হতে পারে।

7. প্রযুক্তিগত বিবরণ ও গাণিতিক সূত্রায়ন

সংযোজন প্রক্রিয়াটি সিটিসি ফরোয়ার্ড-ব্যাকওয়ার্ড অ্যালগরিদমের উপর নির্ভর করে। দৈর্ঘ্য $T$ এর একটি ইনপুট ক্রম $\mathbf{x}$ এবং দৈর্ঘ্য $L$ এর একটি টার্গেট ক্রম $\mathbf{l}$ দেওয়া হলে, সিটিসি একটি ফাঁকা টোকেন ($\epsilon$) প্রবর্তন করে এবং পুনরাবৃত্তি অনুমোদন করে সংযোজনের উপর একটি বন্টন সংজ্ঞায়িত করে। টার্গেটের সম্ভাবনা হলো সমস্ত বৈধ সংযোজন $\pi$ এর উপর সমষ্টি:

$P(\mathbf{l} | \mathbf{x}) = \sum_{\pi \in \mathcal{B}^{-1}(\mathbf{l})} P(\pi | \mathbf{x})$

যেখানে $\mathcal{B}$ হলো সেই ফাংশন যা পুনরাবৃত্ত টোকেনগুলোকে একত্রিত করে এবং ফাঁকাগুলো অপসারণ করে। ভিএডি পরিমার্জনকে একটি সেগমেন্টেশন কাজ হিসেবে সূত্রায়িত করা যেতে পারে, সীমানা $\{t_i\}$ খুঁজে বের করা যা সেগমেন্টের মধ্যে স্পিচ এবং সেগমেন্টের মধ্যে অ-স্পিচের সম্ভাবনা সর্বাধিক করে, প্রায়শই শক্তি-ভিত্তিক বৈশিষ্ট্য বা একটি প্রশিক্ষিত শ্রেণিবদ্ধকারী ব্যবহার করে।

8. বিশ্লেষণ কাঠামো: কেস স্টাডি

পরিস্থিতি: অডিওবুক সিন্থেসিসে অনুভূত "সংযুক্তি"-এর উপর বক্তার শৈলীর প্রভাব মূল্যায়ন করা।

কাঠামো প্রয়োগ:

ডেটা বিভাজন: জে-ম্যাক থেকে দুজন পেশাদার বক্তা (এ ও বি) নিন যারা একটি উপন্যাসের একই অধ্যায় বর্ণনা করেছেন।
বৈশিষ্ট্য নিষ্কাশন: অধ্যায়ের প্রতিটি উচ্চারণের জন্য, ওপেনস্মাইল বা প্রাতের মতো টুল ব্যবহার করে নিম্ন-স্তরের বর্ণনাকারী (এলএলডি) যেমন পিচ কনট্যুর, শক্তি গতিবিদ্যা এবং বিরতির সময়কাল নিষ্কাশন করুন। হিউবার্টের মতো একটি পূর্ব-প্রশিক্ষিত মডেল ব্যবহার করে উচ্চ-স্তরের শৈলী এমবেডিংও নিষ্কাশন করুন।
বিপরীতমুখী বিশ্লেষণ: একই টেক্সচুয়াল বিষয়বস্তুর জন্য বক্তা এ এবং বক্তা বি-এর এলএলডি-এর বন্টনের মধ্যে পরিসংখ্যানগত পার্থক্য (যেমন, টি-টেস্ট বা কেএল ডাইভারজেন্স ব্যবহার করে) গণনা করুন। এটি তাদের অনন্য প্রোসোডিক "ফিঙ্গারপ্রিন্ট" পরিমাপ করে।
সিন্থেসিস ও মূল্যায়ন: দুটি টিটিএস মডেল প্রশিক্ষণ দিন: একটি বক্তা এ-এর ডেটায়, একটি বক্তা বি-এর ডেটায়। প্রশিক্ষণের সময় দেখা যায়নি এমন একই উপন্যাসের অংশ সিন্থেসিস করুন। একটি শ্রবণ পরীক্ষা পরিচালনা করুন যেখানে মূল্যায়নকারীরা প্রতিটি সিন্থেসিসের জন্য "অভিব্যক্তিপূর্ণতা" এবং "আখ্যান সংযুক্তি" রেটিং দেন।
সম্পর্ক: উদ্দেশ্যমূলক শৈলী পার্থক্য (ধাপ ৩) এবং বিষয়ভিত্তিক সংযুক্তি স্কোর (ধাপ ৪) এর মধ্যে সম্পর্ক স্থাপন করুন। জে-ম্যাক-এর কাঠামো দ্বারা সক্ষম এই কাঠামোটি বিচ্ছিন্ন করতে পারে যে কোন অ্যাকোস্টিক বৈশিষ্ট্যগুলো অনুভূত পারফরম্যান্স মানের জন্য সবচেয়ে বেশি অবদান রাখে।

এই কেস স্টাডিটি প্রদর্শন করে কীভাবে জে-ম্যাক কার্যকারণ বিশ্লেষণ সহজতর করে, সম্পর্কের বাইরে গিয়ে অভিব্যক্তিপূর্ণ স্পিচের গঠন উপাদান বোঝার দিকে অগ্রসর হয়।

9. ভবিষ্যৎ প্রয়োগ ও গবেষণা দিকনির্দেশনা

অভিব্যক্তিপূর্ণ ভয়েস ক্লোনিং ও কাস্টমাইজেশন: জে-ম্যাক-এর বহু-বক্তা ডেটা ফিউ-শট বা জিরো-শট ভয়েস অভিযোজন সিস্টেম বিকাশের জন্য আদর্শ যা শুধু বক্তার টিম্ব্র নয়, তাদের আখ্যান শৈলীও অনুকরণ করতে পারে।
বিচ্ছিন্ন উপস্থাপনা শিক্ষণ: ভবিষ্যতের কাজ জে-ম্যাক ব্যবহার করে এমন মডেল প্রশিক্ষণ দিতে পারে যা বিষয়বস্তু, বক্তার পরিচয় এবং অভিব্যক্তিপূর্ণ শৈলীকে পৃথক ল্যাটেন্ট স্পেসে আলাদা করে, সিন্থেসিসের উপর সূক্ষ্ম নিয়ন্ত্রণ সক্ষম করে।
ক্রস-লিঙ্গুয়াল অডিওবুক সিন্থেসিস: পদ্ধতিটি অন্যান্য ভাষায় প্রয়োগ করা যেতে পারে অনুরূপ কর্পাস নির্মাণের জন্য, অনুবাদ বা ডাবিং-এ অভিব্যক্তিপূর্ণ শৈলী সংরক্ষণের উপর গবেষণা সক্ষম করে।
এআই-সহায়িত বিষয়বস্তু সৃষ্টি: বৃহৎ ভাষা মডেল (এলএলএম) এর সাথে একীকরণ এমন সিস্টেমের দিকে নিয়ে যেতে পারে যা একটি নির্দিষ্ট বর্ণনাকারীর শৈলীতে ছোট গল্প বা ব্যক্তিগতকৃত অডিও বিষয়বস্তু লিখতে এবং উপস্থাপন করতে পারে।
প্রবেশাধিকার সরঞ্জাম: যেকোনো ডিজিটাল টেক্সটের জন্য অন-ডিমান্ড উচ্চমানের, অভিব্যক্তিপূর্ণ অডিওবুক তৈরি করা, যা দৃষ্টি প্রতিবন্ধী ব্যবহারকারীদের জন্য প্রবেশাধিকার ব্যাপকভাবে প্রসারিত করে।

10. তথ্যসূত্র

জে. শেন, ও অন্যান্য, "মেল স্পেক্ট্রোগ্রাম ভবিষ্যদ্বাণীতে ওয়েভনেট কন্ডিশনিং দ্বারা প্রাকৃতিক টিটিএস সিন্থেসিস," আইসিএএসএসপি, ২০১৮।
এ. ভাসওয়ানি, ও অন্যান্য, "অ্যাটেনশন ইজ অল ইউ নিড," নিউরআইপিএস, ২০১৭।
ওয়াই. রেন, ও অন্যান্য, "ফাস্টস্পিচ: দ্রুত, মজবুত এবং নিয়ন্ত্রণযোগ্য টেক্সট টু স্পিচ," নিউরআইপিএস, ২০১৯।
এ. ভ্যান ডেন ওর্ড, ও অন্যান্য, "ওয়েভনেট: কাঁচা অডিওর জন্য একটি জেনারেটিভ মডেল," আরক্সিভ:১৬০৯.০৩৪৯৯, ২০১৬।
জে.-ওয়াই. ঝু, ও অন্যান্য, "সাইকেল-কনসিসটেন্ট অ্যাডভারসারিয়াল নেটওয়ার্ক ব্যবহার করে আনপেয়ার্ড ইমেজ-টু-ইমেজ ট্রান্সলেশন," আইসিসিভি, ২০১৭। (সাইকেলজিএএন)
ওয়াই. ওয়াং, ও অন্যান্য, "স্টাইল টোকেনস: এন্ড-টু-এন্ড স্পিচ সিন্থেসিসে অনসুপারভাইজড স্টাইল মডেলিং, কন্ট্রোল এবং ট্রান্সফার," আইসিএমএল, ২০১৮।
গুগল এআই, "অডিওএলএম: অডিও জেনারেশনের জন্য একটি ভাষা মডেলিং পদ্ধতি," গুগল রিসার্চ ব্লগ, ২০২২।
এ. গ্রেভস, ও অন্যান্য, "কানেকশনিস্ট টেম্পোরাল ক্লাসিফিকেশন: রিকারেন্ট নিউরাল নেটওয়ার্ক সহ আনসেগমেন্টেড সিকোয়েন্স ডেটা লেবেলিং," আইসিএমএল, ২০০৬।