ভাষা নির্বাচন করুন

জে-ম্যাক: স্পিচ সিন্থেসিসের জন্য জাপানি মাল্টি-স্পিকার অডিওবুক কর্পাস

জে-ম্যাক কর্পাস নির্মাণ পদ্ধতি, প্রযুক্তিগত অবদান, মূল্যায়ন ফলাফল এবং অভিব্যক্তিপূর্ণ অডিওবুক স্পিচ সিন্থেসিসের ভবিষ্যৎ দিকনির্দেশনা বিশ্লেষণ।
audio-novel.com | PDF Size: 0.4 MB
রেটিং: 4.5/5
আপনার রেটিং
আপনি ইতিমধ্যে এই ডকুমেন্ট রেট করেছেন
PDF ডকুমেন্ট কভার - জে-ম্যাক: স্পিচ সিন্থেসিসের জন্য জাপানি মাল্টি-স্পিকার অডিওবুক কর্পাস

1. ভূমিকা

এই গবেষণাপত্রটি জে-ম্যাক (জাপানি মাল্টি-স্পিকার অডিওবুক কর্পাস) উপস্থাপন করে, যা একটি অভিনব স্পিচ কর্পাস, বিশেষভাবে অডিওবুক প্রয়োগের জন্য অভিব্যক্তিপূর্ণ, প্রসঙ্গ-সচেতন স্পিচ সিন্থেসিস গবেষণাকে এগিয়ে নেওয়ার জন্য নকশা করা হয়েছে। লেখকরা যুক্তি দেখান যে যদিও পাঠ-শৈলীর টিটিএস মানব-সদৃশ মানের কাছাকাছি পৌঁছেছে, পরবর্তী সীমান্তটি জড়িত রয়েছে জটিল, বাক্যসীমা অতিক্রমী প্রসঙ্গ, বক্তা-নির্দিষ্ট অভিব্যক্তিপূর্ণতা এবং আখ্যানের প্রবাহ পরিচালনার সাথে—যা সবই আকর্ষণীয় অডিওবুক তৈরির জন্য অত্যন্ত গুরুত্বপূর্ণ। উচ্চমানের, বহু-বক্তা অডিওবুক কর্পাসের অভাব একটি উল্লেখযোগ্য বাধা ছিল। জে-ম্যাক পেশাদার বর্ণনাকারীদের দ্বারা পাঠ করা বাণিজ্যিকভাবে উপলব্ধ অডিওবুক থেকে স্বয়ংক্রিয়ভাবে এমন একটি কর্পাস নির্মাণের একটি পদ্ধতি প্রদান করে এই সমস্যার সমাধান করে, ফলে প্রাপ্ত ডেটাসেটটি ওপেন-সোর্স করা হয়।

2. কর্পাস নির্মাণ

নির্মাণ পাইপলাইনটি স্বয়ংক্রিয়তা এবং ভাষা-স্বাধীনতার জন্য নকশা করা একটি তিন-পর্যায়ের প্রক্রিয়া।

2.1 তথ্য সংগ্রহ

অডিওবুক নির্বাচন করা হয় দুটি প্রাথমিক মানদণ্ডের ভিত্তিতে: ১) সঠিক রেফারেন্স টেক্সটের প্রাপ্যতা (পছন্দসই হলো কপিরাইট-মুক্ত উপন্যাস যাতে নামকৃত সত্তার উপর এএসআর ত্রুটি এড়ানো যায়), এবং ২) বিভিন্ন পেশাদার বক্তা দ্বারা বর্ণিত একাধিক সংস্করণের অস্তিত্ব যাতে বৈচিত্র্যময় অভিব্যক্তিপূর্ণ শৈলী ধরা পড়ে। এটি একক বক্তার বিপুল পরিমাণ ডেটার চেয়ে বক্তার বৈচিত্র্যকে অগ্রাধিকার দেয়।

2.2 তথ্য পরিশোধন ও সংযোজন

কাঁচা অডিও পরিশুদ্ধ স্পিচ সেগমেন্ট নিষ্কাশন এবং সেগুলোকে সংশ্লিষ্ট টেক্সটের সাথে সুনির্দিষ্টভাবে সংযোজিত করার জন্য প্রক্রিয়াজাত করা হয়। এতে উৎস পৃথকীকরণ, কানেকশনিস্ট টেম্পোরাল ক্লাসিফিকেশন (সিটিসি) ব্যবহার করে মোটামুটি সংযোজন এবং ভয়েস অ্যাক্টিভিটি ডিটেকশন (ভিএডি) ব্যবহার করে সূক্ষ্ম-পরিমার্জন জড়িত।

3. প্রযুক্তিগত পদ্ধতি

3.1 কণ্ঠ-বাদ্যযন্ত্র পৃথকীকরণ

অডিওবুক প্রোডাকশনে সম্ভাব্য ব্যাকগ্রাউন্ড সঙ্গীত বা সাউন্ড ইফেক্ট থেকে পরিশুদ্ধ স্পিচ আলাদা করার জন্য, একটি উৎস পৃথকীকরণ মডেল (যেমন ডিপ ক্লাস্টারিং বা কনভ-ট্যাসনেট ভিত্তিক মডেল) ব্যবহার করা হয়। সিন্থেসিস মডেলের জন্য উচ্চ-নিষ্ঠা প্রশিক্ষণ ডেটা পাওয়ার জন্য এই ধাপটি অত্যন্ত গুরুত্বপূর্ণ।

3.2 সিটিসি-ভিত্তিক সংযোজন

একটি সিটিসি-প্রশিক্ষিত এএসআর মডেল অডিও ওয়েভফর্ম এবং টেক্সট ক্রমের মধ্যে একটি প্রাথমিক, মোটামুটি সংযোজন প্রদান করে। সিটিসি লস ফাংশন $\mathcal{L}_{CTC} = -\log P(\mathbf{y}|\mathbf{x})$, যেখানে $\mathbf{x}$ হলো ইনপুট ক্রম এবং $\mathbf{y}$ হলো টার্গেট লেবেল ক্রম, এটি জোরপূর্বক সেগমেন্টেশন ছাড়াই সংযোজন সম্ভব করে।

3.3 ভিএডি-ভিত্তিক পরিমার্জন

মোটামুটি সিটিসি সংযোজনগুলো একটি ভয়েস অ্যাক্টিভিটি ডিটেকশন সিস্টেম ব্যবহার করে পরিমার্জন করা হয়। এই ধাপটি অ-স্পিচ সেগমেন্ট (বিরতি, নিঃশ্বাস) অপসারণ করে এবং প্রতিটি অডিও সেগমেন্ট একটি টেক্সট ইউনিটের (যেমন, একটি বাক্য) সাথে সঠিকভাবে মিলছে তা নিশ্চিত করতে সীমানা সামঞ্জস্য করে, ফলে টেক্সট-অডিও জোড়ার নির্ভুলতা উন্নত করে।

4. পরীক্ষামূলক ফলাফল ও মূল্যায়ন

লেখকরা জে-ম্যাক-এ প্রশিক্ষিত মডেল ব্যবহার করে অডিওবুক স্পিচ সিন্থেসিস মূল্যায়ন পরিচালনা করেন। মূল ফলাফলগুলোর মধ্যে রয়েছে:

  • মডেল উন্নতি সাধারণীকরণযোগ্য: সিন্থেসিস আর্কিটেকচারে উন্নতি কর্পাসের বিভিন্ন বক্তার আউটপুট স্পিচের স্বাভাবিকতা উন্নত করেছে।
  • জটিলভাবে জড়িত উপাদান: অনুভূত স্বাভাবিকতা সিন্থেসিস পদ্ধতি, বক্তার কণ্ঠস্বরের বৈশিষ্ট্য এবং বইয়ের বিষয়বস্তুর মধ্যে একটি জটিল মিথস্ক্রিয়া দ্বারা প্রবলভাবে প্রভাবিত হয়েছিল। এই উপাদানগুলোর বিচ্ছিন্নতা এখনও একটি চ্যালেঞ্জ।

চার্ট বর্ণনা (অন্তর্নিহিত): একটি প্রকল্পিত বার চার্ট বিভিন্ন সিন্থেসিস সিস্টেম (যেমন, ট্যাকোট্রন২, ফাস্টস্পিচ২) এবং বিভিন্ন জে-ম্যাক বক্তার জন্য স্বাভাবিকতার গড় মতামত স্কোর (এমওএস) দেখাবে। চার্টটি সম্ভবত একই মডেলের জন্য বক্তাদের মধ্যে ভিন্নতা এবং সকল বক্তার জন্য উন্নত মডেলগুলোর জন্য সামঞ্জস্যপূর্ণ উন্নতি প্রবণতা দেখাবে, যা দৃশ্যত দুটি মূল অন্তর্দৃষ্টি নিশ্চিত করবে।

5. মূল অন্তর্দৃষ্টি ও আলোচনা

  • জে-ম্যাক সফলভাবে অভিব্যক্তিপূর্ণ স্পিচ কর্পাস তৈরির জন্য একটি স্কেলযোগ্য, স্বয়ংক্রিয় পাইপলাইন প্রদান করে।
  • বহু-বক্তা, একই-বই নকশা বক্তার পরিচয় এবং অভিব্যক্তিপূর্ণতা অধ্যয়নের জন্য একটি অনন্য শক্তি।
  • মূল্যায়নটি নির্দেশ করে যে ভবিষ্যতের অডিওবুক টিটিএস মডেলগুলোর অবশ্যই বিষয়বস্তু, বক্তা এবং শৈলীর জটিলভাবে জড়িত প্রকৃতির হিসাব রাখতে হবে।

6. মূল বিশ্লেষণ: শিল্প দৃষ্টিকোণ

মূল অন্তর্দৃষ্টি: জে-ম্যাক গবেষণাপত্রটি শুধুমাত্র একটি নতুন ডেটাসেট সম্পর্কে নয়; এটি টিটিএস প্যারাডাইমকে বিচ্ছিন্ন উচ্চারণ উৎপাদন থেকে আখ্যান বুদ্ধিমত্তা-তে স্থানান্তরের একটি কৌশলগত পদক্ষেপ। ওয়েভনেট এবং ট্যাকোট্রনের মতো মডেলগুলো নিষ্ঠা জয় করলেও, তারা মূলত স্পিচের বৃহৎ কাঠামোকে উপেক্ষা করেছে। জে-ম্যাক, একাধিক পেশাদার বক্তার সমান্তরাল আখ্যান সরবরাহ করে, মডেলগুলোর জন্য শুধু কীভাবে কথা বলতে হয় তা নয়, কীভাবে একটি গল্প উপস্থাপন করতে হয় তা শেখার জন্য প্রয়োজনীয় ভিত্তি। এটি গুগলের অডিওএলএম গবেষণাপত্রের মতো কাজে দেখা বৃহত্তর শিল্প প্রবণতার সাথে সামঞ্জস্যপূর্ণ, যা অডিওকে একটি প্রসঙ্গ-সচেতন, শ্রেণিবদ্ধ পদ্ধতিতে মডেল করতে চায়।

যুক্তিসঙ্গত প্রবাহ: লেখকরা সঠিকভাবে ডেটা বাধা চিহ্নিত করেছেন। তাদের সমাধানটি বাস্তববাদী: নতুন রেকর্ডিং কমিশন করার পরিবর্তে বিদ্যমান, উচ্চমানের শৈল্পিক প্রোডাকশন (অডিওবুক) খনন করা। প্রযুক্তিগত পাইপলাইনটি চতুর—একটি নির্দিষ্ট, উচ্চ-মূল্যের লক্ষ্যের জন্য একটি অভিনব সংমিশ্রণে পরিপক্ক প্রযুক্তি (সিটিসি, ভিএডি) ব্যবহার করা। তারপর মূল্যায়ন এই নতুন সম্পদ ব্যবহার করে একটি সমালোচনামূলক, সুস্পষ্ট নয় এমন ফলাফল প্রকাশ করে: অভিব্যক্তিপূর্ণ সিন্থেসিসে, আপনি একটি বক্তা-নিরপেক্ষ "সেরা মডেল" এর জন্য অপ্টিমাইজ করতে পারবেন না। পারফরম্যান্স বক্তার পরিচয়ের সাথে অবিচ্ছেদ্যভাবে যুক্ত।

শক্তি ও ত্রুটি: প্রধান শক্তি হলো কর্পাস নকশা নীতি। পেশাদার বক্তা এবং একই-টেক্সট তুলনার পছন্দ নিয়ন্ত্রণযোগ্যতা অধ্যয়নের জন্য উজ্জ্বল। স্বয়ংক্রিয় পাইপলাইনটি পুনরুৎপাদনযোগ্যতার জন্য একটি উল্লেখযোগ্য অবদান। যাইহোক, গবেষণাপত্রের ত্রুটি হলো এর প্রাথমিক মূল্যায়ন। "জটিলভাবে জড়িত উপাদান" অন্তর্দৃষ্টিটি অত্যন্ত গুরুত্বপূর্ণ কিন্তু শুধু উল্লেখ করা হয়েছে। একটি গভীর বিশ্লেষণ, সম্ভবত স্টাইল ট্রান্সফার সাহিত্য থেকে কৌশল ব্যবহার করে (যেমন গ্লোবাল স্টাইল টোকেনস-এ এনকোডার আর্কিটেকচার বা সাইকেলজিএএন-ভিসি-তে অনুসন্ধান করা বিচ্ছিন্নতা পদ্ধতি), প্রয়োজন। বৈচিত্র্যের কতটুকু অ্যাকোস্টিক টিম্ব্র বনাম প্রোসোডিক শৈলী বনাম শব্দার্থিক ব্যাখ্যার কারণে? গবেষণাপত্রটি দরজা খুলে দেয় কিন্তু এর মধ্য দিয়ে হাঁটে না।

কার্যকরী অন্তর্দৃষ্টি: গবেষকদের জন্য: বিচ্ছিন্নতা কৌশলগুলোর বেঞ্চমার্ক করার জন্য জে-ম্যাক ব্যবহার করুন। পণ্য দলগুলোর জন্য: এই কাজটি ইঙ্গিত দেয় যে পডকাস্ট, বিজ্ঞাপন এবং বইয়ের জন্য ভয়েস এআই-এর পরবর্তী প্রজন্ম আরও পাঠ-শৈলীর ডেটা থেকে নয়, বরং আখ্যান পারফরম্যান্স ডেটা থেকে আসবে। অভিব্যক্তিপূর্ণ, দীর্ঘ-ফর্ম ডেটাসেট কিউরেট করা শুরু করুন। পদ্ধতিটি নিজেই রপ্তানিযোগ্য—কল্পনা করুন একটি "পডকাস্টের জন্য জে-ম্যাক" বা "মুভি ট্রেলারের জন্য জে-ম্যাক"। মূল শিক্ষা হলো যে ফাউন্ডেশন মডেলের যুগে, জে-ম্যাক-এর মতো একটি অনন্য কাঠামোবদ্ধ, উচ্চমানের ডেটাসেটের কৌশলগত মূল্য এর পাশাপাশি প্রকাশিত যেকোনো একক মডেল আর্কিটেকচারের চেয়ে বেশি হতে পারে।

7. প্রযুক্তিগত বিবরণ ও গাণিতিক সূত্রায়ন

সংযোজন প্রক্রিয়াটি সিটিসি ফরোয়ার্ড-ব্যাকওয়ার্ড অ্যালগরিদমের উপর নির্ভর করে। দৈর্ঘ্য $T$ এর একটি ইনপুট ক্রম $\mathbf{x}$ এবং দৈর্ঘ্য $L$ এর একটি টার্গেট ক্রম $\mathbf{l}$ দেওয়া হলে, সিটিসি একটি ফাঁকা টোকেন ($\epsilon$) প্রবর্তন করে এবং পুনরাবৃত্তি অনুমোদন করে সংযোজনের উপর একটি বন্টন সংজ্ঞায়িত করে। টার্গেটের সম্ভাবনা হলো সমস্ত বৈধ সংযোজন $\pi$ এর উপর সমষ্টি:

$P(\mathbf{l} | \mathbf{x}) = \sum_{\pi \in \mathcal{B}^{-1}(\mathbf{l})} P(\pi | \mathbf{x})$

যেখানে $\mathcal{B}$ হলো সেই ফাংশন যা পুনরাবৃত্ত টোকেনগুলোকে একত্রিত করে এবং ফাঁকাগুলো অপসারণ করে। ভিএডি পরিমার্জনকে একটি সেগমেন্টেশন কাজ হিসেবে সূত্রায়িত করা যেতে পারে, সীমানা $\{t_i\}$ খুঁজে বের করা যা সেগমেন্টের মধ্যে স্পিচ এবং সেগমেন্টের মধ্যে অ-স্পিচের সম্ভাবনা সর্বাধিক করে, প্রায়শই শক্তি-ভিত্তিক বৈশিষ্ট্য বা একটি প্রশিক্ষিত শ্রেণিবদ্ধকারী ব্যবহার করে।

8. বিশ্লেষণ কাঠামো: কেস স্টাডি

পরিস্থিতি: অডিওবুক সিন্থেসিসে অনুভূত "সংযুক্তি"-এর উপর বক্তার শৈলীর প্রভাব মূল্যায়ন করা।

কাঠামো প্রয়োগ:

  1. ডেটা বিভাজন: জে-ম্যাক থেকে দুজন পেশাদার বক্তা (এ ও বি) নিন যারা একটি উপন্যাসের একই অধ্যায় বর্ণনা করেছেন।
  2. বৈশিষ্ট্য নিষ্কাশন: অধ্যায়ের প্রতিটি উচ্চারণের জন্য, ওপেনস্মাইল বা প্রাতের মতো টুল ব্যবহার করে নিম্ন-স্তরের বর্ণনাকারী (এলএলডি) যেমন পিচ কনট্যুর, শক্তি গতিবিদ্যা এবং বিরতির সময়কাল নিষ্কাশন করুন। হিউবার্টের মতো একটি পূর্ব-প্রশিক্ষিত মডেল ব্যবহার করে উচ্চ-স্তরের শৈলী এমবেডিংও নিষ্কাশন করুন।
  3. বিপরীতমুখী বিশ্লেষণ: একই টেক্সচুয়াল বিষয়বস্তুর জন্য বক্তা এ এবং বক্তা বি-এর এলএলডি-এর বন্টনের মধ্যে পরিসংখ্যানগত পার্থক্য (যেমন, টি-টেস্ট বা কেএল ডাইভারজেন্স ব্যবহার করে) গণনা করুন। এটি তাদের অনন্য প্রোসোডিক "ফিঙ্গারপ্রিন্ট" পরিমাপ করে।
  4. সিন্থেসিস ও মূল্যায়ন: দুটি টিটিএস মডেল প্রশিক্ষণ দিন: একটি বক্তা এ-এর ডেটায়, একটি বক্তা বি-এর ডেটায়। প্রশিক্ষণের সময় দেখা যায়নি এমন একই উপন্যাসের অংশ সিন্থেসিস করুন। একটি শ্রবণ পরীক্ষা পরিচালনা করুন যেখানে মূল্যায়নকারীরা প্রতিটি সিন্থেসিসের জন্য "অভিব্যক্তিপূর্ণতা" এবং "আখ্যান সংযুক্তি" রেটিং দেন।
  5. সম্পর্ক: উদ্দেশ্যমূলক শৈলী পার্থক্য (ধাপ ৩) এবং বিষয়ভিত্তিক সংযুক্তি স্কোর (ধাপ ৪) এর মধ্যে সম্পর্ক স্থাপন করুন। জে-ম্যাক-এর কাঠামো দ্বারা সক্ষম এই কাঠামোটি বিচ্ছিন্ন করতে পারে যে কোন অ্যাকোস্টিক বৈশিষ্ট্যগুলো অনুভূত পারফরম্যান্স মানের জন্য সবচেয়ে বেশি অবদান রাখে।
এই কেস স্টাডিটি প্রদর্শন করে কীভাবে জে-ম্যাক কার্যকারণ বিশ্লেষণ সহজতর করে, সম্পর্কের বাইরে গিয়ে অভিব্যক্তিপূর্ণ স্পিচের গঠন উপাদান বোঝার দিকে অগ্রসর হয়।

9. ভবিষ্যৎ প্রয়োগ ও গবেষণা দিকনির্দেশনা

  • অভিব্যক্তিপূর্ণ ভয়েস ক্লোনিং ও কাস্টমাইজেশন: জে-ম্যাক-এর বহু-বক্তা ডেটা ফিউ-শট বা জিরো-শট ভয়েস অভিযোজন সিস্টেম বিকাশের জন্য আদর্শ যা শুধু বক্তার টিম্ব্র নয়, তাদের আখ্যান শৈলীও অনুকরণ করতে পারে।
  • বিচ্ছিন্ন উপস্থাপনা শিক্ষণ: ভবিষ্যতের কাজ জে-ম্যাক ব্যবহার করে এমন মডেল প্রশিক্ষণ দিতে পারে যা বিষয়বস্তু, বক্তার পরিচয় এবং অভিব্যক্তিপূর্ণ শৈলীকে পৃথক ল্যাটেন্ট স্পেসে আলাদা করে, সিন্থেসিসের উপর সূক্ষ্ম নিয়ন্ত্রণ সক্ষম করে।
  • ক্রস-লিঙ্গুয়াল অডিওবুক সিন্থেসিস: পদ্ধতিটি অন্যান্য ভাষায় প্রয়োগ করা যেতে পারে অনুরূপ কর্পাস নির্মাণের জন্য, অনুবাদ বা ডাবিং-এ অভিব্যক্তিপূর্ণ শৈলী সংরক্ষণের উপর গবেষণা সক্ষম করে।
  • এআই-সহায়িত বিষয়বস্তু সৃষ্টি: বৃহৎ ভাষা মডেল (এলএলএম) এর সাথে একীকরণ এমন সিস্টেমের দিকে নিয়ে যেতে পারে যা একটি নির্দিষ্ট বর্ণনাকারীর শৈলীতে ছোট গল্প বা ব্যক্তিগতকৃত অডিও বিষয়বস্তু লিখতে এবং উপস্থাপন করতে পারে।
  • প্রবেশাধিকার সরঞ্জাম: যেকোনো ডিজিটাল টেক্সটের জন্য অন-ডিমান্ড উচ্চমানের, অভিব্যক্তিপূর্ণ অডিওবুক তৈরি করা, যা দৃষ্টি প্রতিবন্ধী ব্যবহারকারীদের জন্য প্রবেশাধিকার ব্যাপকভাবে প্রসারিত করে।

10. তথ্যসূত্র

  1. জে. শেন, ও অন্যান্য, "মেল স্পেক্ট্রোগ্রাম ভবিষ্যদ্বাণীতে ওয়েভনেট কন্ডিশনিং দ্বারা প্রাকৃতিক টিটিএস সিন্থেসিস," আইসিএএসএসপি, ২০১৮।
  2. এ. ভাসওয়ানি, ও অন্যান্য, "অ্যাটেনশন ইজ অল ইউ নিড," নিউরআইপিএস, ২০১৭।
  3. ওয়াই. রেন, ও অন্যান্য, "ফাস্টস্পিচ: দ্রুত, মজবুত এবং নিয়ন্ত্রণযোগ্য টেক্সট টু স্পিচ," নিউরআইপিএস, ২০১৯।
  4. এ. ভ্যান ডেন ওর্ড, ও অন্যান্য, "ওয়েভনেট: কাঁচা অডিওর জন্য একটি জেনারেটিভ মডেল," আরক্সিভ:১৬০৯.০৩৪৯৯, ২০১৬।
  5. জে.-ওয়াই. ঝু, ও অন্যান্য, "সাইকেল-কনসিসটেন্ট অ্যাডভারসারিয়াল নেটওয়ার্ক ব্যবহার করে আনপেয়ার্ড ইমেজ-টু-ইমেজ ট্রান্সলেশন," আইসিসিভি, ২০১৭। (সাইকেলজিএএন)
  6. ওয়াই. ওয়াং, ও অন্যান্য, "স্টাইল টোকেনস: এন্ড-টু-এন্ড স্পিচ সিন্থেসিসে অনসুপারভাইজড স্টাইল মডেলিং, কন্ট্রোল এবং ট্রান্সফার," আইসিএমএল, ২০১৮।
  7. গুগল এআই, "অডিওএলএম: অডিও জেনারেশনের জন্য একটি ভাষা মডেলিং পদ্ধতি," গুগল রিসার্চ ব্লগ, ২০২২।
  8. এ. গ্রেভস, ও অন্যান্য, "কানেকশনিস্ট টেম্পোরাল ক্লাসিফিকেশন: রিকারেন্ট নিউরাল নেটওয়ার্ক সহ আনসেগমেন্টেড সিকোয়েন্স ডেটা লেবেলিং," আইসিএমএল, ২০০৬।