1. परिचय
यह शोध पत्र जे-मैक (जापानी मल्टी-स्पीकर ऑडियोबुक कॉर्पस) का परिचय देता है, जो एक नवीन स्पीच कॉर्पस है जिसे अभिव्यंजक, संदर्भ-सजग स्पीच सिंथेसिस, विशेष रूप से ऑडियोबुक अनुप्रयोगों के लिए अनुसंधान को आगे बढ़ाने हेतु डिज़ाइन किया गया है। लेखकों का तर्क है कि जहां पठन-शैली टीटीएस ने मानव-समान गुणवत्ता प्राप्त कर ली है, वहीं अगली चुनौती जटिल, वाक्य-पार संदर्भों, वक्ता-विशिष्ट अभिव्यक्ति और कथात्मक प्रवाह को संभालना है—ये सभी प्रभावशाली ऑडियोबुक निर्माण के लिए महत्वपूर्ण हैं। उच्च-गुणवत्ता, बहु-वक्ता ऑडियोबुक कॉर्पस की कमी एक प्रमुख बाधा रही है। जे-मैक इसका समाधान पेशेवर वाचकों द्वारा पढ़े गए व्यावसायिक रूप से उपलब्ध ऑडियोबुक से ऐसे कॉर्पस के स्वचालित निर्माण की एक विधि प्रदान करके करता है, जिससे परिणामी डेटासेट ओपन-सोर्स बन जाता है।
2. कॉर्पस निर्माण
निर्माण पाइपलाइन एक तीन-चरणीय प्रक्रिया है जिसे स्वचालन और भाषा-स्वतंत्रता के लिए डिज़ाइन किया गया है।
2.1 डेटा संग्रहण
ऑडियोबुक का चयन दो प्राथमिक मापदंडों के आधार पर किया जाता है: 1) सटीक संदर्भ पाठ की उपलब्धता (अधिमानतः कॉपीराइट-मुक्त उपन्यास ताकि नामित इकाइयों पर एएसआर त्रुटियों से बचा जा सके), और 2) विभिन्न पेशेवर वक्ताओं द्वारा सुनाई गई कई संस्करणों का अस्तित्व ताकि विविध अभिव्यंजक शैलियों को कैप्चर किया जा सके। यह एकल वक्ता से डेटा की मात्रा के बजाय वक्ता विविधता को प्राथमिकता देता है।
2.2 डेटा शोधन एवं संरेखण
कच्चे ऑडियो को स्वच्छ स्पीच खंड निकालने और उन्हें संबंधित पाठ के साथ सटीक रूप से संरेखित करने के लिए प्रसंस्करण से गुजरना पड़ता है। इसमें स्रोत पृथक्करण, कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (सीटीसी) का उपयोग करके स्थूल संरेखण, और वॉयस एक्टिविटी डिटेक्शन (वीएडी) का उपयोग करके सूक्ष्म परिष्करण शामिल है।
3. तकनीकी पद्धति
3.1 स्वर-वाद्य पृथक्करण
ऑडियोबुक निर्माण में संभावित पृष्ठभूमि संगीत या ध्वनि प्रभावों से स्वच्छ वाक् को अलग करने के लिए, एक स्रोत पृथक्करण मॉडल (जैसे डीप क्लस्टरिंग या कॉन्व-टैसनेट पर आधारित) का उपयोग किया जाता है। यह चरण सिंथेसिस मॉडल के लिए उच्च-निष्ठा प्रशिक्षण डेटा प्राप्त करने के लिए महत्वपूर्ण है।
3.2 सीटीसी-आधारित संरेखण
एक सीटीसी-प्रशिक्षित एएसआर मॉडल ऑडियो वेवफॉर्म और पाठ अनुक्रम के बीच एक प्रारंभिक, स्थूल संरेखण प्रदान करता है। सीटीसी हानि फलन $\mathcal{L}_{CTC} = -\log P(\mathbf{y}|\mathbf{x})$, जहां $\mathbf{x}$ इनपुट अनुक्रम है और $\mathbf{y}$ लक्ष्य लेबल अनुक्रम है, बिना बलपूर्वक विभाजन के संरेखण की अनुमति देता है।
3.3 वीएडी-आधारित परिष्करण
स्थूल सीटीसी संरेखण को वॉयस एक्टिविटी डिटेक्शन प्रणाली का उपयोग करके परिष्कृत किया जाता है। यह चरण गैर-वाक् खंडों (विराम, सांस) को हटाता है और सीमाओं को समायोजित करता है ताकि यह सुनिश्चित हो सके कि प्रत्येक ऑडियो खंड एक पाठ इकाई (जैसे, एक वाक्य) के साथ सटीक रूप से मेल खाता है, जिससे पाठ-ऑडियो जोड़े की सटीकता में सुधार होता है।
4. प्रायोगिक परिणाम एवं मूल्यांकन
लेखकों ने जे-मैक पर प्रशिक्षित मॉडल का उपयोग करके ऑडियोबुक स्पीच सिंथेसिस मूल्यांकन किए। प्रमुख निष्कर्षों में शामिल हैं:
- मॉडल सुधार सामान्यीकृत होता है: सिंथेसिस आर्किटेक्चर में सुधार ने कॉर्पस में विभिन्न वक्ताओं के आउटपुट स्पीच की स्वाभाविकता में सुधार किया।
- उलझे हुए कारक: अनुभूत स्वाभाविकता सिंथेसिस विधि, वक्ता की आवाज़ विशेषताओं और पुस्तक की सामग्री के बीच जटिल अंतःक्रिया से प्रबल रूप से प्रभावित थी। इन कारकों को अलग करना एक चुनौती बना हुआ है।
चार्ट विवरण (अंतर्निहित): एक काल्पनिक बार चार्ट विभिन्न सिंथेसिस प्रणालियों (जैसे, टैकोट्रॉन2, फास्टस्पीच2) और विभिन्न जे-मैक वक्ताओं के लिए स्वाभाविकता के लिए मीन ओपिनियन स्कोर (एमओएस) दिखाएगा। चार्ट संभवतः एक ही मॉडल के लिए वक्ताओं में भिन्नता और सभी वक्ताओं के लिए उन्नत मॉडल के लिए सुसंगत सुधार प्रवृत्तियों को दिखाएगा, जो दो प्रमुख अंतर्दृष्टियों की दृष्टिगत रूप से पुष्टि करेगा।
5. प्रमुख अंतर्दृष्टि एवं विवेचना
- जे-मैक सफलतापूर्वक अभिव्यंजक स्पीच कॉर्पस बनाने के लिए एक स्केलेबल, स्वचालित पाइपलाइन प्रदान करता है।
- बहु-वक्ता, समान-पुस्तक डिज़ाइन वक्ता पहचान और अभिव्यक्ति का अध्ययन करने के लिए एक अनूठी ताकत है।
- मूल्यांकन इस बात को रेखांकित करता है कि भविष्य के ऑडियोबुक टीटीएस मॉडलों को सामग्री, वक्ता और शैली की उलझी हुई प्रकृति को ध्यान में रखना चाहिए।
6. मूल विश्लेषण: उद्योग परिप्रेक्ष्य
मूल अंतर्दृष्टि: जे-मैक पत्र केवल एक नए डेटासेट के बारे में नहीं है; यह टीटीएस प्रतिमान को पृथक उच्चारण निर्माण से कथात्मक बुद्धिमत्ता की ओर स्थानांतरित करने की एक रणनीतिक चाल है। जबकि वेवनेट और टैकोट्रॉन जैसे मॉडलों ने निष्ठा पर विजय प्राप्त की, उन्होंने मुख्य रूप से वाक् की स्थूल संरचना की उपेक्षा की। जे-मैक, कई पेशेवर वक्ताओं से समानांतर कथाएं प्रदान करके, उन मॉडलों के लिए आवश्यक आधार है जो न केवल कैसे बोलना है बल्कि कहानी को कैसे प्रस्तुत करना है, यह सीख सकें। यह गूगल ऑडियोएलएम पत्र जैसे कार्यों में देखे गए व्यापक उद्योग प्रवृत्ति के अनुरूप है, जो ऑडियो को एक संदर्भ-सजग, पदानुक्रमित तरीके से मॉडल करना चाहता है।
तार्किक प्रवाह: लेखक डेटा बाधा की सही पहचान करते हैं। उनका समाधान व्यावहारिक है: नई रिकॉर्डिंग कराने के बजाय मौजूदा, उच्च-गुणवत्ता वाली कलात्मक रचनाओं (ऑडियोबुक) का खनन करना। तकनीकी पाइपलाइन चतुर है—एक विशिष्ट, उच्च-मूल्य लक्ष्य के लिए एक नए संयोजन में परिपक्व प्रौद्योगिकियों (सीटीसी, वीएडी) का लाभ उठाना। फिर मूल्यांकन इस नए संसाधन का उपयोग एक महत्वपूर्ण, गैर-स्पष्ट खोज को सामने लाने के लिए करता है: अभिव्यंजक सिंथेसिस में, आप वक्ता-अज्ञेय "सर्वश्रेष्ठ मॉडल" के लिए अनुकूलन नहीं कर सकते। प्रदर्शन वक्ता पहचान से अटूट रूप से जुड़ा हुआ है।
शक्तियां एवं दोष: प्रमुख शक्ति कॉर्पस डिज़ाइन सिद्धांत है। नियंत्रणीयता अध्ययनों के लिए पेशेवर वक्ताओं और समान-पाठ तुलना का विकल्प उत्कृष्ट है। स्वचालित पाइपलाइन पुनरुत्पादनशीलता के लिए एक महत्वपूर्ण योगदान है। हालांकि, पत्र का दोष इसका नवजात मूल्यांकन है। "उलझे हुए कारक" अंतर्दृष्टि महत्वपूर्ण है लेकिन केवल कथित है। एक गहन विश्लेषण, शायद शैली स्थानांतरण साहित्य से तकनीकों (जैसे ग्लोबल स्टाइल टोकन्स में एनकोडर आर्किटेक्चर या साइकलजीएएन-वीसी में खोजी गई विघटन विधियों) का उपयोग करके, आवश्यक है। भिन्नता का कितना हिस्सा ध्वनिक टिम्बर बनाम स्वराघात शैली बनाम अर्थगत व्याख्या के कारण है? पत्र दरवाजा खोलता है लेकिन उससे होकर नहीं गुजरता।
कार्रवाई योग्य अंतर्दृष्टि: शोधकर्ताओं के लिए: विघटन तकनीकों के लिए जे-मैक का उपयोग बेंचमार्क के रूप में करें। उत्पाद टीमों के लिए: यह कार्य संकेत देता है कि पॉडकास्ट, विज्ञापनों और पुस्तकों के लिए वॉयस एआई की अगली पीढ़ी अधिक पठन-शैली डेटा से नहीं, बल्कि कथात्मक प्रदर्शन डेटा से आएगी। अभिव्यंजक, लंबी-रूप डेटासेट तैयार करना शुरू करें। पद्धति स्वयं निर्यात योग्य है—"पॉडकास्ट के लिए जे-मैक" या "मूवी ट्रेलर के लिए जे-मैक" की कल्पना करें। मूल सबक यह है कि फाउंडेशन मॉडल के युग में, जे-मैक जैसे विशिष्ट रूप से संरचित, उच्च-गुणवत्ता वाले डेटासेट का रणनीतिक मूल्य उसके साथ प्रकाशित किसी भी एकल मॉडल आर्किटेक्चर के मूल्य से अधिक हो सकता है।
7. तकनीकी विवरण एवं गणितीय सूत्रीकरण
संरेखण प्रक्रिया सीटीसी फॉरवर्ड-बैकवर्ड एल्गोरिदम पर निर्भर करती है। लंबाई $T$ के इनपुट अनुक्रम $\mathbf{x}$ और लंबाई $L$ के लक्ष्य अनुक्रम $\mathbf{l}$ को देखते हुए, सीटीसी एक रिक्त टोकन ($\epsilon$) शुरू करके और पुनरावृत्तियों की अनुमति देकर संरेखण पर एक वितरण को परिभाषित करता है। लक्ष्य की संभावना सभी वैध संरेखण $\pi$ पर योग है:
$P(\mathbf{l} | \mathbf{x}) = \sum_{\pi \in \mathcal{B}^{-1}(\mathbf{l})} P(\pi | \mathbf{x})$
जहां $\mathcal{B}$ वह फलन है जो दोहराए गए टोकन को समेटता है और रिक्त स्थान हटाता है। वीएडी परिष्करण को एक विभाजन कार्य के रूप में तैयार किया जा सकता है, जो सीमाओं $\{t_i\}$ को ढूंढता है जो खंडों के भीतर वाक् और उनके बीच गैर-वाक् की संभावना को अधिकतम करते हैं, जो अक्सर ऊर्जा-आधारित विशेषताओं या एक प्रशिक्षित वर्गीकरणकर्ता का उपयोग करते हैं।
8. विश्लेषण ढांचा: केस स्टडी
परिदृश्य: ऑडियोबुक सिंथेसिस में अनुभूत "संलग्नता" पर वक्ता शैली के प्रभाव का मूल्यांकन करना।
ढांचा अनुप्रयोग:
- डेटा विभाजन: जे-मैक से दो पेशेवर वक्ताओं (ए और बी) को लें जिन्होंने एक उपन्यास का एक ही अध्याय सुनाया है।
- विशेषता निष्कर्षण: अध्याय में प्रत्येक उच्चारण के लिए, ओपनस्माइल या प्राट जैसे उपकरणों का उपयोग करके निम्न-स्तरीय वर्णनकर्ता (एलएलडी) जैसे पिच आकृतियां, ऊर्जा गतिकी और विराम अवधि निकालें। ह्यूबर्ट जैसे पूर्व-प्रशिक्षित मॉडल का उपयोग करके उच्च-स्तरीय शैली एम्बेडिंग भी निकालें।
- विरोधात्मक विश्लेषण: एक ही पाठ्य सामग्री के लिए वक्ता ए और वक्ता बी के एलएलडी के वितरण के बीच सांख्यिकीय अंतरों (जैसे, टी-टेस्ट या केएल डाइवर्जेंस का उपयोग करके) की गणना करें। यह उनकी अद्वितीय स्वराघात "फिंगरप्रिंट" को मात्रात्मक रूप देता है।
- सिंथेसिस एवं मूल्यांकन: दो टीटीएस मॉडल प्रशिक्षित करें: एक वक्ता ए के डेटा पर, एक वक्ता बी के डेटा पर। प्रशिक्षण के दौरान न देखे गए उसी उपन्यास अंश का सिंथेसिस करें। एक श्रवण परीक्षण आयोजित करें जहां मूल्यांकक प्रत्येक सिंथेसिस को "अभिव्यंजकता" और "कथात्मक संलग्नता" के लिए रेट करते हैं।
- सहसंबंध: वस्तुनिष्ठ शैली अंतरों (चरण 3) को व्यक्तिपरक संलग्नता स्कोर (चरण 4) के साथ सहसंबद्ध करें। यह ढांचा, जे-मैक की संरचना द्वारा सक्षम, यह अलग कर सकता है कि कौन सी ध्वनिक विशेषताएं अनुभूत प्रदर्शन गुणवत्ता में सबसे अधिक योगदान करती हैं।
9. भविष्य के अनुप्रयोग एवं शोध दिशाएं
- अभिव्यंजक वॉयस क्लोनिंग एवं अनुकूलन: जे-मैक का बहु-वक्ता डेटा कम-शॉट या शून्य-शॉट वॉयस अनुकूलन प्रणालियों को विकसित करने के लिए आदर्श है जो वक्ता के टिम्बर के साथ-साथ उनकी कथात्मक शैली की भी नकल कर सकते हैं।
- विघटित प्रतिनिधित्व अधिगम: भविष्य का कार्य जे-मैक का उपयोग ऐसे मॉडल प्रशिक्षित करने के लिए कर सकता है जो सामग्री, वक्ता पहचान और अभिव्यंजक शैली को अलग-अलग अव्यक्त स्थानों में अलग करते हैं, जिससे सिंथेसिस पर सूक्ष्म नियंत्रण सक्षम होता है।
- अंतर-भाषाई ऑडियोबुक सिंथेसिस: पद्धति को अन्य भाषाओं पर लागू किया जा सकता है ताकि समान कॉर्पस बनाए जा सकें, जिससे अनुवाद या डबिंग में अभिव्यंजक शैली को संरक्षित करने पर शोध सक्षम हो सके।
- एआई-सहायित सामग्री निर्माण: बड़े भाषा मॉडल (एलएलएम) के साथ एकीकरण से ऐसी प्रणालियां बन सकती हैं जो किसी विशिष्ट वाचक की शैली में लघु कथाएं या व्यक्तिगत ऑडियो सामग्री लिख और प्रस्तुत कर सकें।
- सुलभता उपकरण: किसी भी डिजिटल पाठ के लिए ऑन-डिमांड उच्च-गुणवत्ता, अभिव्यंजक ऑडियोबुक उत्पन्न करना, जिससे दृष्टिबाधित उपयोगकर्ताओं के लिए पहुंच का काफी विस्तार हो सके।
10. संदर्भ
- जे. शेन, एट अल., "मेल स्पेक्ट्रोग्राम भविष्यवाणियों पर वेवनेट को कंडीशनिंग करके प्राकृतिक टीटीएस सिंथेसिस," आईसीएएसएसपी, 2018.
- ए. वासवानी, एट अल., "अटेंशन इज़ ऑल यू नीड," न्यूरआईपीएस, 2017.
- वाई. रेन, एट अल., "फास्टस्पीच: फास्ट, रोबस्ट एंड कंट्रोलेबल टेक्स्ट टू स्पीच," न्यूरआईपीएस, 2019.
- ए. वी. डी. ओर्ड, एट अल., "वेवनेट: रॉ ऑडियो के लिए एक जनरेटिव मॉडल," arXiv:1609.03499, 2016.
- जे.-वाई. झू, एट अल., "साइकल-कंसिस्टेंट एडवरसैरियल नेटवर्क का उपयोग करके अनपेयर्ड इमेज-टू-इमेज ट्रांसलेशन," आईसीसीवी, 2017. (साइकलजीएएन)
- वाई. वांग, एट अल., "स्टाइल टोकन्स: एंड-टू-एंड स्पीच सिंथेसिस में अनसुपरवाइज्ड स्टाइल मॉडलिंग, कंट्रोल एंड ट्रांसफर," आईसीएमएल, 2018.
- गूगल एआई, "ऑडियोएलएम: ऑडियो जनरेशन के लिए एक लैंग्वेज मॉडलिंग एप्रोच," गूगल रिसर्च ब्लॉग, 2022.
- ए. ग्रेव्स, एट अल., "कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन: रिकरेंट न्यूरल नेटवर्क के साथ अनसेगमेंटेड सीक्वेंस डेटा को लेबलिंग करना," आईसीएमएल, 2006.