ভাষা নির্বাচন করুন

জে-ম্যাক: স্পিচ সিন্থেসিসের জন্য জাপানি মাল্টি-স্পিকার অডিওবুক কর্পাস

জে-ম্যাক কর্পাস নির্মাণ পদ্ধতি, প্রযুক্তিগত অবদান, মূল্যায়ন ফলাফল এবং অভিব্যক্তিপূর্ণ অডিওবুক স্পিচ সিন্থেসিসের ভবিষ্যৎ দিকনির্দেশনার বিশ্লেষণ।
audio-novel.com | PDF Size: 0.4 MB
রেটিং: 4.5/5
আপনার রেটিং
আপনি ইতিমধ্যে এই ডকুমেন্ট রেট করেছেন
PDF ডকুমেন্ট কভার - জে-ম্যাক: স্পিচ সিন্থেসিসের জন্য জাপানি মাল্টি-স্পিকার অডিওবুক কর্পাস

1. ভূমিকা

এই গবেষণাপত্রটি জে-ম্যাক (জাপানি মাল্টি-স্পিকার অডিওবুক কর্পাস) উপস্থাপন করে, যা একটি অভিনব স্পিচ কর্পাস যেটি অভিব্যক্তিপূর্ণ, প্রসঙ্গ-সচেতন স্পিচ সিন্থেসিস গবেষণাকে এগিয়ে নেওয়ার জন্য নকশা করা হয়েছে, বিশেষত অডিওবুক প্রয়োগের জন্য। লেখকরা যুক্তি দেখান যে যদিও পাঠ্য-শৈলীর টিটিএস (TTS) মানব-সদৃশ মানের কাছাকাছি পৌঁছেছে, পরবর্তী সীমান্তটি জড়িত জটিল, বাক্যপার-প্রসঙ্গ, স্পিকার-নির্দিষ্ট অভিব্যক্তিপূর্ণতা এবং আখ্যানের প্রবাহ পরিচালনা করার সাথে—যা পেশাদার অডিওবুক বর্ণনার বৈশিষ্ট্য। উচ্চ-মানের, বহু-স্পিকার অডিওবুক কর্পাসের অভাব, বিশেষ করে জাপানি ভাষার মতো ভাষার জন্য, একটি প্রধান বাধা হিসেবে চিহ্নিত করা হয়েছে। জে-ম্যাকের লক্ষ্য পেশাদারভাবে বর্ণিত অডিওবুক থেকে তৈরি, একটি স্বয়ংক্রিয়, ভাষা-নিরপেক্ষ নির্মাণ পাইপলাইন ব্যবহার করে একটি সম্পদ সরবরাহের মাধ্যমে এই শূন্যতা পূরণ করা।

2. কর্পাস নির্মাণ

জে-ম্যাকের নির্মাণে একটি তিন-পর্যায়ের পাইপলাইন জড়িত: তথ্য সংগ্রহ, পরিশোধন এবং সুনির্দিষ্ট পাঠ্য-অডিও অ্যালাইনমেন্ট।

2.1 তথ্য সংগ্রহ

অডিওবুক নির্বাচন করা হয়েছিল দুটি প্রাথমিক মানদণ্ডের ভিত্তিতে: ১) সঠিক রেফারেন্স পাঠ্যের প্রাপ্যতা (নামকৃত সত্তার উপর ASR ট্রান্সক্রিপশন ত্রুটি এড়াতে কপিরাইট-মুক্ত উপন্যাসকে অগ্রাধিকার দেওয়া), এবং ২) একই বইয়ের একাধিক পেশাদার স্পিকার রেন্ডিশনের অস্তিত্ব স্পিকার-নির্ভর অভিব্যক্তিপূর্ণতা ক্যাপচার করার জন্য। সমান্তরাল রেকর্ডিং (একই বই, ভিন্ন স্পিকার) এর উপর এই ফোকাস স্পিকার শৈলীর উপর নিয়ন্ত্রিত গবেষণা সক্ষম করার জন্য একটি কৌশলগত পছন্দ।

2.2 তথ্য পরিশোধন ও অ্যালাইনমেন্ট

কাঁচা অডিওবুক অডিও একটি বহু-ধাপের পরিশোধন প্রক্রিয়ার মধ্য দিয়ে যায়। প্রথমত, কণ্ঠ-বাদ্যযন্ত্র পৃথকীকরণ (যেমন, স্প্লিটার বা ওপেন-আনমিক্সের মতো টুল ব্যবহার করে) যেকোনো ব্যাকগ্রাউন্ড সঙ্গীত বা সাউন্ড ইফেক্ট থেকে স্পিকারের কণ্ঠস্বরকে আলাদা করে। এরপর, কানেকশনিস্ট টেম্পোরাল ক্লাসিফিকেশন (CTC), সাধারণত একটি প্রাক-প্রশিক্ষিত ASR মডেল থেকে, অডিও সেগমেন্ট এবং সংশ্লিষ্ট পাঠ্যের মধ্যে একটি মোটামুটি অ্যালাইনমেন্ট প্রদান করে। সর্বশেষে, ভয়েস অ্যাক্টিভিটি ডিটেকশন (VAD) প্রয়োগ করা হয় স্পিচ সেগমেন্টের সীমানা পরিশোধন করার জন্য, পাঠ্যের সাথে মিলে যাওয়া পরিষ্কার, সুনির্দিষ্ট উচ্চারণ নিশ্চিত করার জন্য।

3. প্রযুক্তিগত পদ্ধতি

মূল উদ্ভাবনটি স্বয়ংক্রিয় পাইপলাইনে নিহিত, যা ম্যানুয়াল শ্রমকে ন্যূনতম করে।

3.1 কণ্ঠ-বাদ্যযন্ত্র পৃথকীকরণ

এই ধাপটি "পরিষ্কার" স্পিচ ডেটা পাওয়ার জন্য অত্যন্ত গুরুত্বপূর্ণ। গবেষণাপত্রটি সোর্স সেপারেশন মডেল ব্যবহারের ইঙ্গিত দেয় ভোকাল ট্র্যাক নিষ্কাশনের জন্য, যেসব নন-স্পিচ উপাদান TTS মডেল প্রশিক্ষণকে অবনতি করতে পারে সেগুলো অপসারণ করে।

3.2 সিটিসি-ভিত্তিক অ্যালাইনমেন্ট

সিটিসি অ্যালাইনমেন্ট ব্যবহার করা হয় স্পষ্ট সেগমেন্টেশন ছাড়াই ভিন্ন দৈর্ঘ্যের ক্রম পরিচালনা করার ক্ষমতার জন্য। সিটিসি লস ফাংশন, $L_{CTC} = -\log P(\mathbf{y}|\mathbf{x})$, যেখানে $\mathbf{x}$ হল অ্যাকোস্টিক ইনপুট এবং $\mathbf{y}$ হল টার্গেট লেবেল ক্রম, মডেলটিকে অডিও ফ্রেম এবং পাঠ্য অক্ষর/ফোনেমের মধ্যে একটি অ্যালাইনমেন্ট শিখতে দেয়।

3.3 ভিএডি পরিশোধন

সিটিসি অ্যালাইনমেন্টের পরে, ভিএডি অ্যালগরিদম (যেমন, শক্তি থ্রেশহোল্ড বা নিউরাল নেটওয়ার্কের উপর ভিত্তি করে) ব্যবহার করা হয় মোটামুটি অ্যালাইন করা সেগমেন্টের মধ্যে স্পিচের সুনির্দিষ্ট শুরু এবং শেষ বিন্দু সনাক্ত করার জন্য, অগ্রগামী/অনুবর্তী নীরবতা বা শব্দ অপসারণ করে।

4. মূল্যায়ন ও ফলাফল

লেখকরা জে-ম্যাকের উপর প্রশিক্ষিত মডেল ব্যবহার করে অডিওবুক স্পিচ সিন্থেসিস মূল্যায়ন পরিচালনা করেছেন। মূল ফলাফলগুলির মধ্যে রয়েছে:

  • পদ্ধতির সাধারণীকরণ: অন্তর্নিহিত সংশ্লেষণ পদ্ধতির উন্নতি (যেমন, উন্নত অ্যাকোস্টিক মডেল) কর্পাসের সমস্ত স্পিকারের জন্য সিন্থেটিক স্পিচের স্বাভাবিকতা বৃদ্ধি করেছে।
  • জটিলভাবে জড়িত উপাদান: সংশ্লেষিত অডিওবুক স্পিচের স্বাভাবিকতা সংশ্লেষণ পদ্ধতি, টার্গেট স্পিকারের কণ্ঠস্বর বৈশিষ্ট্য এবং সংশ্লেষিত নির্দিষ্ট বই/বিষয়বস্তুর মধ্যে একটি জটিল মিথস্ক্রিয়া দ্বারা প্রবলভাবে প্রভাবিত হয়েছিল। এই উপাদানগুলিকে আলাদা করা এখনও একটি চ্যালেঞ্জ।

মূল্যায়ন অন্তর্দৃষ্টি

মূল ফলাফল: সংশ্লেষণ মান স্পিকার x পদ্ধতি x বিষয়বস্তু মিথস্ক্রিয়ার উপর অ-তুচ্ছভাবে নির্ভরশীল।

5. মূল অন্তর্দৃষ্টি ও আলোচনা

  • জে-ম্যাক জাপানি ভাষায় অভিব্যক্তিপূর্ণ TTS গবেষণার জন্য একটি গুরুত্বপূর্ণ তথ্য স্বল্পতার সমস্যা সমাধান করে।
  • স্বয়ংক্রিয় নির্মাণ পাইপলাইন একটি উল্লেখযোগ্য অবদান, এই ধরনের কর্পাস তৈরির খরচ এবং সময় হ্রাস করে এবং সম্ভাব্যভাবে অন্যান্য ভাষার জন্য প্রযোজ্য।
  • মূল্যায়নটি জোর দেয় যে অডিওবুক সংশ্লেষণ কেবল একক-বাক্য TTS-এর আকার বৃদ্ধি নয়; এটির জন্য উচ্চ-স্তরের আখ্যান প্রসঙ্গ এবং স্পিকার পরিচয় মডেলিং প্রয়োজন।
  • "জটিলভাবে জড়িত" ফলাফলটি ইঙ্গিত দেয় যে ভবিষ্যতের মূল্যায়ন মেট্রিক্স এবং মডেলগুলিকে বহুমাত্রিক উপাদানগুলির হিসাব রাখতে হবে।

6. মূল বিশ্লেষণ: শিল্প দৃষ্টিকোণ

মূল অন্তর্দৃষ্টি: জে-ম্যাক গবেষণাপত্রটি কেবল একটি নতুন ডেটাসেট সম্পর্কে নয়; এটি TTS প্যারাডাইমকে বিচ্ছিন্ন উচ্চারণ উৎপাদন থেকে সামগ্রিক আখ্যান মডেলিং-এ স্থানান্তর করার একটি কৌশলগত পদক্ষেপ। লেখকরা সঠিকভাবে চিহ্নিত করেছেন যে স্পিচ সিন্থেসিসে পরবর্তী মূল্য পরিবর্তনের বিন্দুটি দীর্ঘ-ফর্ম, অভিব্যক্তিপূর্ণ বিষয়বস্তু যেমন অডিওবুক, পডকাস্ট এবং ইন্টারেক্টিভ আখ্যানে অবস্থিত—যেসব ক্ষেত্রে বর্তমান TTS এখনও রোবোটিক এবং প্রসঙ্গ-অজ্ঞান শোনায়। একটি বহু-স্পিকার কর্পাস ওপেন-সোর্স করে, তারা কেবল তথ্য সরবরাহ করছে না; তারা বেঞ্চমার্ক এবং গবেষণা এজেন্ডা নির্ধারণ করছে।

যুক্তিগত প্রবাহ: তাদের যুক্তি অখণ্ডনীয়: ১) উচ্চ-মানের তথ্য হল গভীর শিক্ষার জ্বালানি। ২) পেশাদার অডিওবুক হল অভিব্যক্তিপূর্ণ, প্রাসঙ্গিকভাবে সুসংগত স্পিচের স্বর্ণমান। ৩) ম্যানুয়াল কর্পাস তৈরি করা অত্যন্ত ব্যয়বহুল। অতএব, একটি স্বয়ংক্রিয় পাইপলাইন (পৃথকীকরণ → সিটিসি অ্যালাইনমেন্ট → ভিএডি) হল একমাত্র স্কেলযোগ্য সমাধান। এটি অ্যান্ড্রু এনগের দ্বারা সমর্থিত ডেটা-কেন্দ্রিক AI আন্দোলনের প্রতিফলন, যেখানে ডেটা পাইপলাইনের মান মডেল আর্কিটেকচারের মতোই গুরুত্বপূর্ণ।

শক্তি ও দুর্বলতা: প্রধান শক্তি হল পাইপলাইনের ব্যবহারিকতা এবং ভাষা-নিরপেক্ষ নকশা। সোর্স সেপারেশন মডেল (যেমন, ডেমাক্স-এ ব্যবহৃত U-Net আর্কিটেকচারের উপর ভিত্তি করে) এবং সিটিসি-ভিত্তিক ASR-এর মতো রেডিমেড উপাদান ব্যবহার করে এটিকে পুনরুৎপাদনযোগ্য করা হয়েছে। যাইহোক, গবেষণাপত্রের দুর্বলতা হল এটি যে "প্রসঙ্গ" সমস্যাটি তুলে ধরে তার উপর হালকা স্পর্শ। এটি তথ্য (জে-ম্যাক) প্রদান করে কিন্তু বাক্যপার-প্রসঙ্গ ব্যবহার করার বা বিষয়বস্তু থেকে স্পিকার শৈলী আলাদা করার জন্য সীমিত নতুন মডেলিং সমাধান অফার করে। মূল্যায়ন ফলাফল, যদিও অন্তর্দৃষ্টিপূর্ণ, বর্ণনামূলক নির্দেশমূলক নয়। আমরা কীভাবে প্রকৃতপক্ষে "জটিলভাবে জড়িত" উপাদানগুলিকে মডেল করব? স্টাইল ট্রান্সফার এবং ডিসএনট্যাঙ্গেলড রিপ্রেজেন্টেশন লার্নিং থেকে কৌশল, যেমন সাইকেলজিএএন বা ভেরিয়েশনাল অটোএনকোডারে ব্যবহৃতগুলি, ইঙ্গিত দেওয়া হয়েছে কিন্তু গভীরভাবে অন্বেষণ করা হয়নি।

কার্যকরী অন্তর্দৃষ্টি: শিল্প অনুশীলনকারীদের জন্য, শিক্ষাটি দ্বিমুখী। প্রথমত, অনুরূপ দীর্ঘ-ফর্ম, বহু-শৈলীর স্পিচ কর্পাস তৈরি বা অর্জনে বিনিয়োগ করুন—এটি একটি মূল পার্থক্যকারী হবে। দ্বিতীয়ত, গবেষণা অগ্রাধিকার হওয়া উচিত প্রসঙ্গ-সচেতন আর্কিটেকচার-এর উপর। এর অর্থ হতে পারে অনেক দীর্ঘতর প্রসঙ্গ উইন্ডো সহ ট্রান্সফরমার-ভিত্তিক মডেল, বা শ্রেণিবদ্ধ মডেল যা স্থানীয় স্বরাঘাত, স্পিকার শৈলী এবং গ্লোবাল আখ্যান চাপ আলাদাভাবে এনকোড করে। গুগল ব্রেইনের দল যেমন সাউন্ডস্ট্রিম বা মাইক্রোসফটের VALL-E-এর কাজ নিউরাল কোডেক-ভিত্তিক পদ্ধতির দিকে নির্দেশ করে যা জে-ম্যাক প্রদত্ত প্রাসঙ্গিক সংকেতের সাথে প্রসারিত হতে পারে। ভবিষ্যৎ কেবল একটি বাক্য সংশ্লেষণ করা নয়; এটি একটি পারফরম্যান্স সংশ্লেষণ করা।

7. প্রযুক্তিগত বিবরণ ও গাণিতিক সূত্রায়ন

অ্যালাইনমেন্ট প্রক্রিয়াটি ব্যাপকভাবে সিটিসি উদ্দেশ্যের উপর নির্ভর করে। দৈর্ঘ্য $T$ এর একটি ইনপুট ক্রম $\mathbf{x}$ (অডিও বৈশিষ্ট্য) এবং দৈর্ঘ্য $U$ এর একটি টার্গেট লেবেল ক্রম $\mathbf{l}$ (পাঠ্য অক্ষর) এর জন্য, যেখানে $T > U$, সিটিসি একটি ফাঁকা টোকেন $\epsilon$ প্রবর্তন করে এবং একটি পাথ $\pi$ (দৈর্ঘ্য $T$) থেকে $\mathbf{l}$-এ একটি বহু-থেকে-এক ম্যাপিং $\mathcal{B}$ সংজ্ঞায়িত করে। একটি পাথের সম্ভাবনা হল: $P(\pi|\mathbf{x}) = \prod_{t=1}^{T} y_{\pi_t}^t$, যেখানে $y_{\pi_t}^t$ হল সময় $t$-এ প্রতীক $\pi_t$ এর সম্ভাবনা। লেবেল ক্রমের শর্তাধীন সম্ভাবনা হল $\mathcal{B}$ দ্বারা এতে ম্যাপ করা সমস্ত পাথের সমষ্টি: $P(\mathbf{l}|\mathbf{x}) = \sum_{\pi \in \mathcal{B}^{-1}(\mathbf{l})} P(\pi|\mathbf{x})$। এই সূত্রায়ন মডেলটিকে প্রাক-সেগমেন্টেড ডেটা ছাড়াই অ্যালাইনমেন্ট শিখতে দেয়। জে-ম্যাক পাইপলাইনে, একটি প্রাক-প্রশিক্ষিত সিটিসি মডেল (যেমন, একটি ডিপস্পিচ২-সদৃশ আর্কিটেকচারের উপর ভিত্তি করে) অডিওকে খণ্ডিত করতে এই অ্যালাইনমেন্টগুলি তৈরি করে।

8. পরীক্ষামূলক ফলাফল ও চার্ট বর্ণনা

যদিও প্রদত্ত PDF উদ্ধৃতিতে স্পষ্ট চার্ট নেই, বর্ণিত ফলাফলগুলি একটি বহু-গুণক মূল্যায়ন নকশার ইঙ্গিত দেয়। একটি প্রকল্পিত ফলাফল চার্ট যা তাদের মূল ফলাফলটি চিত্রিত করবে তা হবে একটি 3D সারফেস প্লট বা গ্রুপড বার চার্টের একটি সিরিজ

চার্ট বর্ণনা: y-অক্ষ স্বাভাবিকতার জন্য গড় মতামত স্কোর (MOS) উপস্থাপন করে (যেমন, 1-5 স্কেল)। x-অক্ষ বিভিন্ন সংশ্লেষণ পদ্ধতি তালিকাভুক্ত করে (যেমন, ট্যাকোট্রন২, ফাস্টস্পিচ২, একটি প্রস্তাবিত মডেল)। গ্রুপিং/z-অক্ষ জে-ম্যাক থেকে বিভিন্ন স্পিকার (স্পিকার A, B, C) এবং/অথবা বিভিন্ন বই (বই X, বই Y) উপস্থাপন করবে। মূল চাক্ষুষ ফলাফল হবে যে বারগুলির উচ্চতা (MOS) গ্রুপ জুড়ে একটি সামঞ্জস্যপূর্ণ ক্রম অনুসরণ করে না। উদাহরণস্বরূপ, পদ্ধতি 1 বই X-এ স্পিকার A-এর জন্য সেরা হতে পারে, কিন্তু বই Y-এ স্পিকার B-এর জন্য সবচেয়ে খারাপ, যা স্পষ্টভাবে উপাদানগুলির "শক্তিশালী জটিলভাবে জড়িত" প্রকৃতি প্রদর্শন করে। ত্রুটি বারগুলি সম্ভবত উল্লেখযোগ্য ওভারল্যাপ দেখাবে, যা সহজ সিদ্ধান্তে পৌঁছানোর চ্যালেঞ্জ নির্দেশ করে।

9. বিশ্লেষণ কাঠামো: উদাহরণ কেস

কেস স্টাডি: অডিওবুকের জন্য একটি নতুন TTS মডেল মূল্যায়ন

উদ্দেশ্য: নির্ধারণ করুন যে "মডেল-Z" জে-ম্যাক ব্যবহার করে অডিওবুক সংশ্লেষণের জন্য একটি বেসলাইন থেকে উন্নতি করে কিনা।

কাঠামো:

  1. তথ্য বিভাজন: বই এবং স্পিকার দ্বারা জে-ম্যাক বিভক্ত করুন। নিশ্চিত করুন যে টেস্ট সেটগুলিতে প্রশিক্ষণে দেখা বইগুলি থেকে অদেখা বাক্য (ইন-ডোমেইন) এবং সম্পূর্ণ অদেখা বই (আউট-অফ-ডোমেইন) রয়েছে।
  2. মডেল প্রশিক্ষণ: একই প্রশিক্ষণ বিভাজনে বেসলাইন (যেমন, ফাস্টস্পিচ২) এবং মডেল-Z উভয়কে প্রশিক্ষণ দিন। জে-ম্যাক পাঠ্য-অডিও জোড়া ব্যবহার করুন।
  3. নিয়ন্ত্রিত মূল্যায়ন: সমস্ত টেস্ট শর্তের (স্পিকার x বই সমন্বয়) জন্য অভিন্ন পাঠ্য ক্রমের জন্য স্পিচ তৈরি করুন।
  4. মেট্রিক্স:
    • প্রাথমিক: স্বাভাবিকতা এবং অভিব্যক্তিপূর্ণতার জন্য MOS।
    • দ্বিতীয়: সিন্থেটিক স্পিচে ASR-এর শব্দ ত্রুটি হার (WER) (বোধগম্যতা), স্পিকার সাদৃশ্য স্কোর (যেমন, ECAPA-TDNN-এর মতো একটি স্পিকার যাচাইকরণ মডেল ব্যবহার করে)।
    • প্রাসঙ্গিক মেট্রিক: একটি A/B পরীক্ষা যেখানে মূল্যায়নকারীরা পরপর দুটি সংশ্লেষিত বাক্য শুনে এবং সুসংগততা রেট করেন।
  5. বিশ্লেষণ: ANOVA বা অনুরূপ পরিসংখ্যানগত বিশ্লেষণ সম্পাদন করুন MOS স্কোরগুলির উপর মডেল, স্পিকার, বই এবং তাদের মিথস্ক্রিয়ার প্রভাব আলাদা করার জন্য। নাল হাইপোথিসিস হবে "মডেল-Z-এর স্পিকার এবং বই থেকে স্বাধীন কোন প্রভাব নেই।"
এই কাঠামোটি গবেষণাপত্রে তুলে ধরা জটিলভাবে জড়িত সমস্যাটির সরাসরি সমাধান করে।

10. ভবিষ্যৎ প্রয়োগ ও গবেষণা দিকনির্দেশনা

  • ব্যক্তিগতকৃত অডিওবুক: একজন ব্যবহারকারীর প্রিয় বর্ণনাকারী বা এমনকি একটি ব্যক্তিগত কণ্ঠ ক্লোনের কণ্ঠে বই সংশ্লেষণ করা।
  • গেম/XR-এর জন্য গতিশীল বর্ণনা: ইন্টারেক্টিভ মিডিয়ার জন্য রিয়েল-টাইমে প্রসঙ্গ-সচেতন, অভিব্যক্তিপূর্ণ সংলাপ এবং বর্ণনা তৈরি করা।
  • প্রবেশাধিকার: দৃষ্টিপ্রতিবন্ধী বা স্বল্প-সম্পদ ভাষার বইগুলির জন্য অডিওবুক উৎপাদনের সময় এবং খরচ ব্যাপকভাবে হ্রাস করা।
  • গবেষণা দিকনির্দেশনা:
    1. ডিসএনট্যাঙ্গেলড রিপ্রেজেন্টেশন লার্নিং: এমন মডেল তৈরি করা যা বিষয়বস্তু, স্পিকার শৈলী, আবেগ এবং আখ্যানের সুরকে স্পষ্টভাবে লুকানো চলকগুলিতে আলাদা করে।
    2. দীর্ঘ-প্রসঙ্গ মডেলিং: দক্ষ ট্রান্সফরমার বৈকল্পিক (যেমন, লংফরমার, পারফরমার) ব্যবহার করে সম্পূর্ণ অনুচ্ছেদ বা অধ্যায়ের উপর সংশ্লেষণকে কন্ডিশন করা।
    3. স্বরাঘাত স্থানান্তর ও নিয়ন্ত্রণ: দীর্ঘ অংশ জুড়ে গতি, জোর এবং স্বরভঙ্গির উপর সূক্ষ্ম নিয়ন্ত্রণ সক্ষম করা, সম্ভবত রেফারেন্স অডিও ক্লিপগুলিকে শৈলী প্রম্পট হিসাবে ব্যবহার করে।
    4. ক্রস-লিঙ্গুয়াল সম্প্রসারণ: অন্যান্য ভাষার জন্য অনুরূপ কর্পাস তৈরি করতে জে-ম্যাক নির্মাণ পাইপলাইন প্রয়োগ করা, তুলনামূলক গবেষণাকে উৎসাহিত করা।

11. তথ্যসূত্র

  1. J. Shen, et al., "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions," ICASSP 2018.
  2. A. Vaswani, et al., "Attention Is All You Need," NeurIPS 2017.
  3. Y. Ren, et al., "FastSpeech: Fast, Robust and Controllable Text to Speech," NeurIPS 2019.
  4. J.-Y. Zhu, et al., "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," ICCV 2017 (CycleGAN).
  5. A. Défossez, et al., "Demucs: Deep Extractor for Music Sources with extra unlabeled data remixed," arXiv:1909.01174.
  6. A. van den Oord, et al., "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499.
  7. J. Kong, et al., "HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis," NeurIPS 2020.
  8. N. Zeghidour, et al., "SoundStream: An End-to-End Neural Audio Codec," arXiv:2107.03312.
  9. A. Graves, et al., "Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks," ICML 2006.
  10. Andrew Ng, "Data-Centric AI," DeepLearning.AI.