ऑडियो-नॉवेल: तकनीकी शोध, ऑडियोबुक निर्माण और एआई ऑडियो रिट्रीवल का व्यापक संग्रह

भाषा

#1

काल्पनिक सृजन के लिए भाषा मॉडलों के विश्वदृष्टिकोण का आकलन

रचनात्मक लेखन के लिए कथा सुसंगतता और स्थिति प्रतिधारण में सीमाओं को उजागर करते हुए, एलएलएम की सुसंगत काल्पनिक दुनिया बनाए रखने की क्षमता का विश्लेषण।
#2

ऑडियो-नॉवेल - तकनीकी दस्तावेज़ीकरण और संसाधन

ऑडियो-नॉवेल प्रौद्योगिकी और अनुप्रयोगों के बारे में व्यापक तकनीकी दस्तावेज़ीकरण और संसाधन।
#3

प्राकृतिक भाषा क्वेरीज़ के साथ क्रॉस-मोडल ऑडियो रिट्रीवल

मुक्त-रूप प्राकृतिक भाषा क्वेरीज़ का उपयोग करके ऑडियो रिट्रीवल पर शोध, जो क्रॉस-मोडल ऑडियो रिट्रीवल के लिए नए बेंचमार्क और बेसलाइन प्रस्तुत करता है।
#4

ऑडियोबुक अनुभव की संकल्पना: एक सैद्धांतिक ढांचा

मुद्रित पुस्तकें पढ़ने और ऑडियोबुक सुनने के बीच के अंतरों को समझने के लिए एक सैद्धांतिक ढांचे का विश्लेषण, जो मोबाइल सुनने की प्रथाओं पर जोर देता है।
#5

ऑडियोबूस्ट: एलएलएम-जनित सिंथेटिक क्वेरीज़ के माध्यम से स्पॉटिफाई खोज में ऑडियोबुक खोज को बढ़ाना

स्पॉटिफाई की खोज प्रणाली में ऑडियोबुक पुनर्प्राप्ति में सुधार के लिए बड़ी भाषा मॉडल का उपयोग करके सिंथेटिक क्वेरी उत्पन्न करने पर शोध, जो क्वेरी ऑटो-पूर्णता और पुनर्प्राप्ति वृद्धि के माध्यम से कोल्ड-स्टार्ट चुनौतियों का समाधान करता है।
#6

ऑडियोबुक-सीसी: नियंत्रणीय लंबे-संदर्भ बहु-कास्ट ऑडियोबुक निर्माण हेतु एक रूपरेखा

ऑडियोबुक-सीसी का विश्लेषण, एक नवीन वाक् संश्लेषण रूपरेखा जो सूक्ष्म नियंत्रण और लंबे-संदर्भ मॉडलिंग के साथ सुसंगत, भावनात्मक रूप से अभिव्यंजक बहु-कास्ट ऑडियोबुक उत्पन्न करती है।
#7

ऑडियोबुक-सीसी: सूक्ष्म-नियंत्रण योग्य लंबे-संदर्भ बहु-प्रसारण ऑडियोबुक निर्माण हेतु एक रूपरेखा

ऑडियोबुक-सीसी का विश्लेषण, एक नवीन टीटीएस रूपरेखा जो सुसंगत, भावनात्मक रूप से अभिव्यंजक और संदर्भगत रूप से सुसंगत बहु-प्रसारण ऑडियोबुक्स का सूक्ष्म-नियंत्रण के साथ निर्माण करती है।
#8

'डिजिटल ऑडियोबुक: न्यू मीडिया, उपयोगकर्ता और अनुभव' का विश्लेषण - एक मीडिया अध्ययन परिप्रेक्ष्य

'डिजिटल ऑडियोबुक' पर पुस्तक समीक्षा का एक आलोचनात्मक विश्लेषण, जो मीडिएटाइजेशन सिद्धांत, पोस्ट-फेनोमेनोलॉजी और ऑडियो-आधारित साहित्यिक उपभोग के विकसित परिदृश्य की पड़ताल करता है।
#9

ऑडियोबुक का अंत-से-अंत स्वचालित भाषण अनुवाद: कॉर्पस, मॉडल और विश्लेषण

एक संवर्धित ऑडियोबुक कॉर्पस पर अंत-से-अंत भाषण-से-पाठ अनुवाद मॉडल का विश्लेषण, प्रशिक्षण परिदृश्यों और मॉडल दक्षता की खोज।
#10

स्पॉटिफ़ाई में ग्राफ़ न्यूरल नेटवर्क के माध्यम से व्यक्तिगत ऑडियोबुक सिफ़ारिशें

स्पॉटिफ़ाई का अभिनव 2T-HGNN सिस्टम जो स्केलेबल ऑडियोबुक सिफ़ारिशों के लिए हेटरोजीनियस ग्राफ़ न्यूरल नेटवर्क और टू टावर मॉडल को जोड़ता है, जिससे 46% स्टार्ट रेट में वृद्धि हुई।
#11

जे-मैक: स्पीच सिंथेसिस के लिए जापानी मल्टी-स्पीकर ऑडियोबुक कॉर्पस

जे-मैक कॉर्पस निर्माण पद्धति, तकनीकी योगदान, मूल्यांकन परिणामों और अभिव्यंजक ऑडियोबुक स्पीच सिंथेसिस के भविष्य के दिशा-निर्देशों का विश्लेषण।
#12

संगीत और गीतों का बोले गए शब्दों की पहचान पर प्रभाव: विश्लेषण और निहितार्थ

पृष्ठभूमि संगीत (गीतों के साथ और बिना) बोले गए शब्दों की पहचान को कैसे प्रभावित करता है, इसका विश्लेषण। सामाजिक वातावरण और भविष्य के कार्यों के लिए निहितार्थ।
#13

कार्टून वीडियो के लिए कथावाचन निर्माण: कार्य औपचारिकीकरण, डेटासेट और मॉडल

वीडियो के लिए स्वचालित कथावाचन निर्माण के कार्य का परिचय देने वाला एक शोध पत्र, जो पेप्पा पिग से एक नया डेटासेट प्रस्तुत करता है और समयनिर्धारण एवं सामग्री निर्माण के लिए मॉडल प्रस्तावित करता है।
#14

गैर-देशी बोली गई शब्द प्रसंस्करण का एक ध्वन्यात्मक मॉडल: विश्लेषण एवं अंतर्दृष्टियाँ

गैर-देशी शब्द प्रसंस्करण में ध्वन्यात्मक धारणा की भूमिका की जाँच करने वाले एक कम्प्यूटेशनल मॉडल का विश्लेषण, जो पारंपरिक स्वनिम संबंधी स्पष्टीकरणों को चुनौती देता है।
#15

ध्वन्यात्मक और अर्थगत सन्निहितता: बोले गए शब्दों के एम्बेडिंग और मौखिक सामग्री पुनर्प्राप्ति में अनुप्रयोग

बोले गए शब्दों के लिए ध्वन्यात्मक और अर्थगत जानकारी दोनों को समाहित करने वाला एक दो-चरणीय ढांचा, जो साधारण शब्द मिलान से परे उन्नत मौखिक दस्तावेज़ पुनर्प्राप्ति को सक्षम बनाता है।
#16

ऑडियो वर्णन द्वारा निर्देशित दुर्बल-पर्यवेक्षित क्रिया पहचान

एक शोध पत्र जो शोरगुल वाले ऑडियो वर्णन को दुर्बल पर्यवेक्षण के रूप में उपयोग करके वीडियो क्रिया पहचान मॉडल को प्रशिक्षित करने, एनोटेशन लागत कम करते हुए बहु-मोडल सुविधाओं का लाभ उठाने की खोज करता है।

अंतिम अपडेट: 2026-02-25 12:01:15