İçindekiler
1. Giriş ve Genel Bakış
"Sesli Kitaplarda Prozodi Analizi" başlıklı bu araştırma makalesi, modern Metinden Sese (TTS) sistemlerindeki kritik bir boşluğu ele alıyor: insan tarafından anlatılan sesli kitapların karakteristik ifadeli, dramatik seslendirmelerini taklit edememe sorunu. Ticari TTS genel konuşmada yüksek doğallık sağlamış olsa da, diyalog, duygu ve betimleme açısından zengin anlatı metinlerinde yetersiz kalıyor. Temel tez, üst düzey Doğal Dil İşleme (NLP) analizinin—özellikle karakter tanımlama, diyalog ve anlatı yapısını hedefleyen—prozodik özellikleri (perde, ses şiddeti, konuşma hızı) tahmin etmek için kullanılabileceği ve sentetik sesli kitap kalitesini önemli ölçüde artırabileceğidir.
Bu çalışma, 93 hizalanmış kitap-sesli kitap çiftinden oluşan yeni bir veri seti sunuyor ve bu veri üzerinde eğitilen modellerin, insan prozodi kalıplarıyla korelasyon açısından en gelişmiş ticari bir TTS temel çizgisini (Google Cloud TTS) geride bıraktığını gösteriyor.
93
Hizalanmış Kitap-Sesli Kitap Çifti
1806
Analiz Edilen Bölüm
22/24
Daha İyi Perde Tahmini Yapılan Kitap
23/24
Daha İyi Ses Şiddeti Tahmini Yapılan Kitap
2. Metodoloji ve Veri Seti
2.1 Veri Seti Oluşturma
Bu araştırmanın temeli, 93 roman ve bunlara karşılık gelen insan tarafından okunmuş sesli kitaplardan oluşan özenle derlenmiş bir veri setidir. Veri seti, metin ve ses arasında cümle düzeyinde hizalama yapılmış 1.806 bölüm içererek hassas analize olanak tanır. Bu veri seti, konuşma ve NLP toplulukları için değerli bir kaynak olarak kamuya açıklanmıştır. Hizalama süreci, metindeki her cümle için doğru prozodi etiketlerinin (perde, ses şiddeti, hız) çıkarılmasında kritik öneme sahiptir.
2.2 Prozodi Özellik Çıkarımı
Hizalanmış sesli kitaplardan, cümle düzeyinde üç temel prozodi özelliği çıkarılır:
- Perde (F0): Temel frekans, ses tellerinin titreşim hızını gösterir. Hertz (Hz) cinsinden ölçülür.
- Ses Şiddeti (Yoğunluk/Enerji): Konuşma sinyalinin genliği veya yüksekliği. Desibel (dB) cinsinden ölçülür.
- Hız (Konuşma Hızı): Seslendirme hızı, genellikle saniyedeki hece sayısı olarak ölçülür.
2.3 Model Mimarisi
Birincil model, MPNet (Masked and Permuted Pre-training for Language Understanding) cümle gömüleri üzerine kurulu bir Uzun Kısa Süreli Bellek (LSTM) ağıdır. MPNet, girdi metninin zengin bağlamsal temsillerini sağlar. LSTM katmanı ise, perde, ses şiddeti ve hız için sürekli değerleri tahmin etmek üzere anlatıdaki sıralı bağımlılıkları modeller. Bu mimari, anlatı anlayışı için gerekli olan uzun menzilli bağlamsal ipuçlarını yakalama yeteneği nedeniyle seçilmiştir.
3. Temel Bulgular ve Analiz
3.1 Karakter Düzeyinde Prozodi Kalıpları
Önemli bir ampirik bulgu, insan anlatıcıların karakter özelliklerine ve anlatı bağlamına dayanarak prozodiyi sistematik olarak modüle etmesidir. Analiz şunları ortaya koyuyor:
- İki ana karakterin cinsiyetinin farklı olduğu 31 kitabın 21'inde, anlatıcılar erkek karakteri canlandırmak için daha düşük perde ve daha yüksek ses şiddeti kullandı.
- Anlatıcılar, karakter cinsiyetinden bağımsız olarak, diyaloğa kıyasla anlatı bölgelerinde tutarlı bir şekilde daha düşük perde kullanır.
3.2 Model Performansı vs. Ticari TTS
Önerilen modelin tahmin ettiği prozodi özellikleri, Google Cloud Metinden Sese'nin varsayılan çıktısına kıyasla insan okumalarıyla önemli ölçüde daha yüksek bir korelasyon gösteriyor.
- Perde: Modelin tahminleri, test setindeki 24 kitabın 22'sinde insan okumasıyla daha iyi korelasyon gösterdi.
- Ses Şiddeti: Modelin tahminleri, 24 kitabın 23'ünde daha iyi korelasyon gösterdi.
4. Teknik Uygulama
4.1 Matematiksel Formülasyon
Prozodi tahmin görevi bir regresyon problemi olarak çerçevelenmiştir. MPNet gömüsü $\mathbf{e}_S$ ile temsil edilen bir girdi cümlesi $S$ verildiğinde, $\theta$ parametreleriyle parametrelendirilmiş model $f_\theta$ bir prozodi vektörü $\mathbf{p}$ tahmin eder: $$\mathbf{p} = [\hat{pitch}, \hat{volume}, \hat{rate}]^T = f_\theta(\mathbf{e}_S)$$ Model, tahminleri $\hat{\mathbf{p}}$ ile insan sesinden çıkarılan gerçek prozodi değerleri $\mathbf{p}_{gt}$ arasındaki Ortalama Kare Hata (MSE) kaybını en aza indirecek şekilde eğitilir: $$\mathcal{L}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \| \hat{\mathbf{p}}_i - \mathbf{p}_{gt,i} \|^2_2$$
4.2 LSTM Mimarisi Detayları
Temel dizi modeli standart bir LSTM hücresidir. Her adımda $t$ (bir cümleye karşılık gelir), girdi $\mathbf{x}_t$ (MPNet gömüsü) ve önceki durumlara dayanarak gizli durumunu $\mathbf{h}_t$ ve hücre durumunu $\mathbf{c}_t$ günceller: $$\mathbf{i}_t = \sigma(\mathbf{W}_{xi}\mathbf{x}_t + \mathbf{W}_{hi}\mathbf{h}_{t-1} + \mathbf{b}_i)$$ $$\mathbf{f}_t = \sigma(\mathbf{W}_{xf}\mathbf{x}_t + \mathbf{W}_{hf}\mathbf{h}_{t-1} + \mathbf{b}_f)$$ $$\mathbf{o}_t = \sigma(\mathbf{W}_{xo}\mathbf{x}_t + \mathbf{W}_{ho}\mathbf{h}_{t-1} + \mathbf{b}_o)$$ $$\tilde{\mathbf{c}}_t = \tanh(\mathbf{W}_{xc}\mathbf{x}_t + \mathbf{W}_{hc}\mathbf{h}_{t-1} + \mathbf{b}_c)$$ $$\mathbf{c}_t = \mathbf{f}_t \odot \mathbf{c}_{t-1} + \mathbf{i}_t \odot \tilde{\mathbf{c}}_t$$ $$\mathbf{h}_t = \mathbf{o}_t \odot \tanh(\mathbf{c}_t)$$ Burada $\sigma$ sigmoid fonksiyonudur, $\odot$ eleman bazında çarpımı belirtir ve $\mathbf{W}$ ile $\mathbf{b}$ öğrenilebilir parametrelerdir. Son gizli durum $\mathbf{h}_t$, 3 boyutlu prozodi tahminini üretmek için tam bağlantılı bir katmandan geçirilir.
5. Deneysel Sonuçlar
5.1 Korelasyon Metrikleri ve Şekil 1
Birincil değerlendirme metriği, bir bölüm boyunca tahmin edilen prozodi konturu ile insan tarafından okunan prozodi konturu arasındaki korelasyon katsayısıdır (örn. Pearson's r). Makaledeki Şekil 1, önerilen sistem ve Google Cloud TTS için 24 test kitabı boyunca insan-TTS korelasyonunu karşılaştıran bir nokta grafiği sunar.
- Grafik Açıklaması (Şekil 1a - Perde): X ekseni farklı kitapları temsil eder. Her kitabın iki noktası vardır: biri önerilen modelin insan okumasıyla perde korelasyonu, diğeri Google TTS'nin korelasyonu için. Grafik, modelin noktasının (muhtemelen farklı bir renkte) kitapların büyük çoğunluğunda Google'ın noktasından daha yüksek olduğunu görsel olarak göstererek, 22/24 iddiasını nicel olarak destekler.
- Grafik Açıklaması (Şekil 1b - Ses Şiddeti): Ses şiddeti korelasyonu için benzer bir nokta grafiği, önerilen modelin daha da baskın bir performansını göstererek 23/24 sonucuna karşılık gelir.
5.2 İnsan Değerlendirme Çalışması
Korelasyon metriklerinin ötesinde, bir insan değerlendirme çalışması yapılmıştır. Modelin prozodi tahminleri, bir TTS motorunu kontrol etmek için SSML (Speech Synthesis Markup Language) etiketleri oluşturmak için kullanıldı. Dinleyicilere iki versiyon sunuldu: varsayılan Google TTS sesi ve modelin tahminlerini kullanan SSML ile geliştirilmiş ses. Sonuçlar nüanslıydı: küçük bir çoğunluk (22 denekten 12'si) SSML ile geliştirilmiş okumaları tercih etti, ancak tercih ezici değildi. Bu, öznel ses kalitesi değerlendirmesinin karmaşıklığını vurgular ve modelin nesnel prozodik kalıpları iyi yakalasa da, bunları nihai ses çıktısına sorunsuz bir şekilde entegre etmenin hala bir zorluk olduğunu gösterir.
6. Analiz Çerçevesi ve Vaka Çalışması
Anlatı Prozodisi Analizi Çerçevesi:
- Metin Bölümleme ve Açıklama: Romanı cümlelere bölün. Şunlar için NLP işlem hatlarını çalıştırın:
- Karakterleri tanımlamak için Adlandırılmış Varlık Tanıma (NER).
- Diyaloğu karakterlere bağlamak için alıntı atıfı.
- Cümleleri "Anlatı," "Diyalog" veya "Betimleme" olarak etiketlemek için metin sınıflandırması.
- Bağlamsal Özellik Mühendisliği: Her cümle için özellikler oluşturun:
- İkili bayraklar: `is_dialogue`, `is_narrative`.
- Konuşmacının Karakter Kimliği (eğer diyalogdaysa).
- Meta veri: karakter cinsiyeti (harici bilgi tabanından).
- Anlamsal içeriği yakalayan cümle gömüsü (MPNet).
- Prozodi Etiket Çıkarımı: Zamanla hizalanmış ses dosyasından, her cümle için perde (F0), ses şiddeti (RMS enerjisi) ve konuşma hızını (hece/süre) çıkarın.
- Model Eğitimi ve Çıkarım: LSTM modelini (Bölüm 4.2) {özellikler → prozodi etiketleri} çiftleri üzerinde eğitin. Yeni metin için, prozodi özelliklerini tahmin etmek üzere eğitilmiş modeli uygulayın.
- SSML Oluşturma ve Sentez: Tahmin edilen perdeyi (göreceli bir çarpan olarak, örn. `+20%`), ses şiddetini (örn. `+3dB`) ve hızı (örn. `slow`) SSML etiketlerine dönüştürün. Etiketlenmiş metni, nihai ses oluşturma için yüksek kaliteli bir sinirsel TTS motoruna (örn. Google, Amazon Polly) besleyin.
7. Gelecekteki Uygulamalar ve Yönler
- Kişiselleştirilmiş Sesli Kitap Anlatımı: Kullanıcılar, o tarzda okuyan anlatıcıların sesli kitapları üzerinde prozodi tahmin modelini ince ayarlayarak bir "anlatıcı tarzı" (örn. "sakin," "dramatik," "alaycı") seçebilir.
- Gerçek Zamanlı Etkileşimli Hikaye Anlatımı: Oyun motorlarına veya etkileşimli kurgu platformlarına entegrasyon, burada prozodi anlatı gerilimi, karakter ilişkileri ve oyuncu seçimlerine dayalı olarak dinamik olarak ayarlanır.
- Erişilebilirlik ve Dil Öğrenimi: Görme engelli kullanıcılar için geliştirilmiş TTS, edebiyata daha ilgi çekici ve anlaşılır erişim sağlar. Ayrıca, daha ifadeli ve bağlamdan haberdar telaffuz modelleri sağlayarak dil öğrenenlere yardımcı olabilir.
- Çok Modlu Yaratıcı Araçlar: Yazarlar ve ses prodüktörleri için, bir el yazmasında prozodi işaretlemeleri öneren veya inceleme için otomatik olarak ifadeli ses taslakları oluşturan araçlar.
- Araştırma Yönü - Duygu ve Duygu Durumu: Modeli, metinden duygu analizi ve duygu tespiti ekleyerek daha ayrıntılı duygusal prozodiyi (örn. neşe, üzüntü, öfke) tahmin etmek için genişletmek, Carnegie Mellon Üniversitesi Dil Teknolojileri Enstitüsü gibi kurumlardaki araştırmalarda görülen duygusal TTS çabalarına benzer.
- Araştırma Yönü - Uçtan Uca Sistemler: Sonradan eklenen SSML kontrolünün ötesine geçerek, prozodi tahmininin akustik modelin ayrılmaz, koşullandırılmış bir parçası olduğu uçtan uca bir sinirsel TTS sistemi (Tacotron 2 veya FastSpeech 2 gibi) eğitmek, potansiyel olarak daha doğal ve tutarlı bir çıktı sağlayabilir.
8. Kaynaklar
- Pethe, C., Pham, B., Childress, F. D., Yin, Y., & Skiena, S. (2025). Prosody Analysis of Audiobooks. arXiv preprint arXiv:2310.06930v3.
- Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
- Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780.
- Song, K., et al. (2020). MPNet: Masked and Permuted Pre-training for Language Understanding. Advances in Neural Information Processing Systems 33 (NeurIPS 2020).
- Google Cloud. (n.d.). Text-to-Speech. Retrieved from https://cloud.google.com/text-to-speech
- World Wide Web Consortium (W3C). (2010). Speech Synthesis Markup Language (SSML) Version 1.1. W3C Recommendation.
- Zen, H., et al. (2019). LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech. Interspeech 2019.
Analist Perspektifi: Eleştirel Bir Yapıbozum
Temel İçgörü: Bu makale sadece robotları daha insan gibi konuşturmakla ilgili değil; aynı zamanda anlatı sunumunun örtük kurallarını tersine mühendislikle çözmek için büyük, yeterince kullanılmayan bir veri setinden—insan sesli kitap performanslarından—kurnazca yararlanıyor. Yazarlar, milyar dolarlık sesli kitap endüstrisinin aslında ifadeli konuşma için devasa, önceden var olan bir açıklama seti olduğunu doğru bir şekilde tespit ediyor. Temel içgörüleri, anlatıcıyı metinsel duygu durumu için yüksek hassasiyetli bir sensör olarak ele almak; bu kavram, CycleGAN'ın (Zhu ve diğerleri, 2017) stil çevirisi öğrenmek için eşleştirilmemiş görüntü setlerini nasıl kullandığına paralellik gösteriyor—burada "stil" prozodik performanstır.
Mantıksal Akış: Mantık ikna edicidir: 1) Denetimli bir veri seti oluşturmak için metin ve sesi hizalayın. 2) Metni anlamak için sağlam NLP (MPNet) kullanın. 3) Bağlamı prozodiye eşlemek için sıralı bir model (LSTM) kullanın. 4) Korelasyon metriklerinde ticari bir devi (Google) kendi oyununda yenin. Veri oluşturmadan model üstünlüğüne giden akış temizdir ve 22/24 ve 23/24 galibiyet oranlarıyla iyi desteklenmiştir. Ancak, zincir son, kritik halkada zayıflar: öznel dinleyici tercihi. 12/22'lik bir sonuç istatistiksel olarak zayıftır ve AI sesindeki kalıcı "iyi metrikler, vasat deneyim" sorununu ortaya çıkarır.
Güçlü ve Zayıf Yönler: Güç, veri setinde ve temel TTS'yi nesnel prozodik konturları yakalamada geride bırakmadaki net, ölçülebilir üstünlükte yadsınamaz. Karakter düzeyindeki analiz (erkek vs. kadın, anlatı vs. diyalog), hem model için bir doğrulama hem de insan performansına dair büyüleyici bir içgörü sağlayan ampirik bir gözlem mücevheridir. Ana zayıflık, sonradan eklenen SSML hack'lemesine güvenmektir. Herhangi bir ses mühendisinin söyleyeceği gibi, genel bir TTS sesine sonradan prozodi kontrolleri uygulamak genellikle yapay ve kopuk görünür—kötü bir kayıtta grafik ekolayzır kullanmak gibi. İnsan değerlendirme sonuçları bu sınırlamayı haykırıyor. Model doğru notaları tahmin ediyor, ancak sentez motoru onları akortlu çalamıyor. FastSpeech 2 gibi modellerde öncülük edildiği gibi, daha iddialı, uçtan uca bir yaklaşım, gerekli ancak daha zor olan bir sonraki adımdır.
Harekete Geçirilebilir İçgörüler: Ürün ekipleri için acil çıkarım, mevcut TTS tekliflerine "Hikaye Anlatıcısı" veya "İfadeli" modu eklemek için bu veri setini ve modelini lisanslamak veya üzerine inşa etmektir—uygulanabilir bir kısa vadeli özellik. Araştırmacılar için yol iki yönlüdür: İlk olarak, bu prozodi tahminini doğrudan bir sinirsel TTS sisteminin akustik modeline entegre edin, SSML'nin ötesine geçin. İkinci olarak, analizi üç temel özelliğin ötesine genişletin, ses kalitesini (nefeslilik, pürüzlülük) ve daha nüanslı duygusal durumları kapsayın, belki de duygusal konuşma analizi için MSP-Podcast corpus gibi kaynaklardan yararlanın. Makale, zengin bir araştırma damarını başarıyla açar; şimdi cevheri rafine etmenin zor işi başlar.