Содержание
1. Введение и обзор
Данная исследовательская работа «Анализ просодии аудиокниг» посвящена критическому пробелу в современных системах синтеза речи (Text-to-Speech, TTS): неспособности воспроизвести выразительную, драматическую манеру озвучивания, характерную для аудиокниг, начитанных людьми. В то время как коммерческий TTS достиг высокой естественности в обычной речи, он спотыкается на повествовательных текстах, насыщенных диалогами, эмоциями и описаниями. Основной тезис заключается в том, что анализ естественного языка (Natural Language Processing, NLP) более высокого порядка — в частности, направленный на идентификацию персонажей, диалогов и повествовательной структуры — может быть использован для предсказания просодических характеристик (высота тона, громкость, темп речи) и значительного повышения качества синтетических аудиокниг.
Работа представляет новый набор данных из 93 пар «книга-аудиокнига» с выравниванием и демонстрирует, что модели, обученные на этих данных, превосходят по корреляции с человеческими просодическими паттернами передовой коммерческий TTS-бейзлайн (Google Cloud TTS).
93
Пар «книга-аудиокнига» с выравниванием
1806
Проанализированных глав
22/24
Книг с лучшим предсказанием высоты тона
23/24
Книг с лучшим предсказанием громкости
2. Методология и набор данных
2.1 Создание набора данных
Основой данного исследования является тщательно подобранный набор данных, включающий 93 романа и соответствующие им аудиокниги, начитанные людьми. Набор данных включает 1806 глав с выравниванием текста и аудио на уровне предложений, что позволяет проводить точный анализ. Этот набор данных был опубликован в открытом доступе, предоставляя ценный ресурс для сообществ, занимающихся речью и NLP. Процесс выравнивания имеет решающее значение для извлечения точных просодических меток (высота тона, громкость, темп) для каждого предложения в тексте.
2.2 Извлечение просодических атрибутов
Из выровненных аудиокниг на уровне предложений извлекаются три основных просодических атрибута:
- Высота тона (F0): Основная частота, указывающая на скорость вибрации голосовых связок. Измеряется в герцах (Гц).
- Громкость (Интенсивность/Энергия): Амплитуда или громкость речевого сигнала. Измеряется в децибелах (дБ).
- Темп (Скорость речи): Скорость произнесения, часто измеряется в слогах в секунду.
2.3 Архитектура модели
Основная модель — это сеть долгой краткосрочной памяти (Long Short-Term Memory, LSTM), построенная на эмбеддингах предложений MPNet (Masked and Permuted Pre-training for Language Understanding). MPNet обеспечивает богатые контекстуальные представления входного текста. Слой LSTM затем моделирует последовательные зависимости в повествовании для предсказания непрерывных значений высоты тона, громкости и темпа. Эта архитектура выбрана благодаря своей способности улавливать долгосрочные контекстуальные сигналы, необходимые для понимания повествования.
3. Ключевые результаты и анализ
3.1 Просодические паттерны на уровне персонажей
Важным эмпирическим открытием является то, что человеческие чтецы систематически модулируют просодию на основе атрибутов персонажей и повествовательного контекста. Анализ показывает:
- В 21 из 31 книги, где два главных персонажа различаются по полу, чтецы использовали более низкий тон и более высокую громкость для изображения мужского персонажа.
- Чтецы последовательно используют более низкий тон в повествовательных частях по сравнению с диалогами, независимо от пола персонажа.
3.2 Производительность модели в сравнении с коммерческим TTS
Предсказанные предложенной моделью просодические атрибуты демонстрируют значительно более высокую корреляцию с человеческим чтением, чем стандартный вывод Google Cloud Text-to-Speech.
- Высота тона: Предсказания модели лучше коррелировали с человеческим чтением в 22 из 24 книг тестового набора.
- Громкость: Предсказания модели лучше коррелировали в 23 из 24 книг.
4. Техническая реализация
4.1 Математическая формулировка
Задача предсказания просодии формулируется как проблема регрессии. Для заданного входного предложения $S$, представленного его эмбеддингом MPNet $\mathbf{e}_S$, модель $f_\theta$, параметризованная $\theta$, предсказывает вектор просодии $\mathbf{p}$: $$\mathbf{p} = [\hat{pitch}, \hat{volume}, \hat{rate}]^T = f_\theta(\mathbf{e}_S)$$ Модель обучается минимизировать среднеквадратичную ошибку (Mean Squared Error, MSE) между её предсказаниями $\hat{\mathbf{p}}$ и истинными значениями просодии $\mathbf{p}_{gt}$, извлечёнными из человеческого аудио: $$\mathcal{L}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \| \hat{\mathbf{p}}_i - \mathbf{p}_{gt,i} \|^2_2$$
4.2 Детали архитектуры LSTM
Основная модель последовательности — это стандартная ячейка LSTM. На каждом шаге $t$ (соответствующем предложению) она обновляет своё скрытое состояние $\mathbf{h}_t$ и состояние ячейки $\mathbf{c}_t$ на основе входа $\mathbf{x}_t$ (эмбеддинг MPNet) и предыдущих состояний: $$\mathbf{i}_t = \sigma(\mathbf{W}_{xi}\mathbf{x}_t + \mathbf{W}_{hi}\mathbf{h}_{t-1} + \mathbf{b}_i)$$ $$\mathbf{f}_t = \sigma(\mathbf{W}_{xf}\mathbf{x}_t + \mathbf{W}_{hf}\mathbf{h}_{t-1} + \mathbf{b}_f)$$ $$\mathbf{o}_t = \sigma(\mathbf{W}_{xo}\mathbf{x}_t + \mathbf{W}_{ho}\mathbf{h}_{t-1} + \mathbf{b}_o)$$ $$\tilde{\mathbf{c}}_t = \tanh(\mathbf{W}_{xc}\mathbf{x}_t + \mathbf{W}_{hc}\mathbf{h}_{t-1} + \mathbf{b}_c)$$ $$\mathbf{c}_t = \mathbf{f}_t \odot \mathbf{c}_{t-1} + \mathbf{i}_t \odot \tilde{\mathbf{c}}_t$$ $$\mathbf{h}_t = \mathbf{o}_t \odot \tanh(\mathbf{c}_t)$$ где $\sigma$ — сигмоидная функция, $\odot$ обозначает поэлементное умножение, а $\mathbf{W}$ и $\mathbf{b}$ — обучаемые параметры. Финальное скрытое состояние $\mathbf{h}_t$ пропускается через полносвязный слой для получения трёхмерного предсказания просодии.
5. Результаты экспериментов
5.1 Метрики корреляции и Рисунок 1
Основной метрикой оценки является коэффициент корреляции (например, коэффициент Пирсона r) между предсказанным просодическим контуром и просодическим контуром человеческого чтения в рамках главы. Рисунок 1 в статье представляет точечную диаграмму, сравнивающую корреляцию «человек-TTS» для предложенной системы и Google Cloud TTS по 24 тестовым книгам.
- Описание диаграммы (Рис. 1a — Высота тона): Ось X представляет различные книги. У каждой книги есть две точки: одна для корреляции высоты тона предложенной модели с человеческим чтением, и одна для корреляции Google TTS. Диаграмма наглядно показывает, что точка модели (вероятно, отмеченная другим цветом) находится выше точки Google для подавляющего большинства книг, количественно подтверждая утверждение 22/24.
- Описание диаграммы (Рис. 1b — Громкость): Аналогичная точечная диаграмма для корреляции громкости, показывающая ещё более доминирующую производительность предложенной модели, соответствующую результату 23/24.
5.2 Исследование с участием людей
Помимо метрик корреляции, было проведено исследование с участием людей. Предсказания просодии модели использовались для генерации тегов SSML (Speech Synthesis Markup Language) для управления TTS-движком. Слушателям предлагались две версии: аудио по умолчанию от Google TTS и улучшенное SSML-аудио с использованием предсказаний модели. Результаты были неоднозначными: небольшое большинство (12 из 22 испытуемых) предпочло улучшенные SSML-чтения, но предпочтение не было подавляющим. Это подчёркивает сложность субъективной оценки качества звука и предполагает, что хотя модель хорошо улавливает объективные просодические паттерны, их бесшовная интеграция в финальный аудиовыход остаётся проблемой.
6. Фреймворк анализа и кейс-стади
Фреймворк для анализа повествовательной просодии:
- Сегментация и аннотация текста: Разделить роман на предложения. Запустить NLP-пайплайны для:
- Распознавания именованных сущностей (NER) для идентификации персонажей.
- Атрибуции цитат для связывания диалогов с персонажами.
- Классификации текста для маркировки предложений как «Повествование», «Диалог» или «Описание».
- Инженерия контекстуальных признаков: Для каждого предложения создать признаки:
- Бинарные флаги: `is_dialogue`, `is_narrative`.
- ID персонажа-говорящего (если в диалоге).
- Метаданные: пол персонажа (из внешней базы знаний).
- Эмбеддинг предложения (MPNet), захватывающий семантическое содержание.
- Извлечение просодических меток: Из выровненного по времени аудио извлечь высоту тона (F0), громкость (RMS-энергия) и темп речи (слоги/длительность) для каждого предложения.
- Обучение модели и вывод: Обучить модель LSTM (Раздел 4.2) на парах {признаки → просодические метки}. Для нового текста применить обученную модель для предсказания просодических атрибутов.
- Генерация SSML и синтез: Преобразовать предсказанные высоту тона (как относительный множитель, например, `+20%`), громкость (например, `+3dB`) и темп (например, `slow`) в теги SSML. Передать размеченный текст в высококачественный нейронный TTS-движок (например, Google, Amazon Polly) для финального рендеринга аудио.
7. Будущие применения и направления
- Персонализированное озвучивание аудиокниг: Пользователи могли бы выбирать «стиль чтеца» (например, «спокойный», «драматичный», «саркастичный») путём дообучения модели предсказания просодии на аудиокнигах, начитанных чтецами с таким стилем.
- Интерактивное повествование в реальном времени: Интеграция в игровые движки или платформы интерактивной литературы, где просодия динамически корректируется на основе напряжённости повествования, отношений персонажей и выбора игрока.
- Доступность и изучение языков: Улучшенный TTS для слабовидящих пользователей, предоставляющий более увлекательный и понятный доступ к литературе. Также может помочь изучающим языки, предоставляя более выразительные и контекстно-зависимые модели произношения.
- Кросс-модальные творческие инструменты: Для авторов и аудиопродюсеров — инструменты, предлагающие просодическую разметку в рукописи или автоматически генерирующие выразительные аудио-черновики для проверки.
- Направление исследований — Эмоции и тональность: Расширение модели для предсказания более детальной эмоциональной просодии (например, радость, грусть, гнев) путём включения анализа тональности и детекции эмоций из текста, аналогично работам в области эмоционального TTS, проводимым в таких институтах, как Language Technologies Institute Университета Карнеги-Меллон.
- Направление исследований — End-to-End системы: Переход от постфактумного управления SSML к обучению end-to-end нейронной TTS-системы (такой как Tacotron 2 или FastSpeech 2), где предсказание просодии является неотъемлемой, обусловленной частью акустической модели, что потенциально может дать более естественный и целостный результат.
8. Ссылки
- Pethe, C., Pham, B., Childress, F. D., Yin, Y., & Skiena, S. (2025). Prosody Analysis of Audiobooks. arXiv preprint arXiv:2310.06930v3.
- Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
- Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780.
- Song, K., et al. (2020). MPNet: Masked and Permuted Pre-training for Language Understanding. Advances in Neural Information Processing Systems 33 (NeurIPS 2020).
- Google Cloud. (n.d.). Text-to-Speech. Retrieved from https://cloud.google.com/text-to-speech
- World Wide Web Consortium (W3C). (2010). Speech Synthesis Markup Language (SSML) Version 1.1. W3C Recommendation.
- Zen, H., et al. (2019). LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech. Interspeech 2019.
Взгляд аналитика: Критический разбор
Ключевая идея: Эта статья не просто о том, как заставить роботов звучать более человечно; это умное использование огромного, недостаточно используемого набора данных — человеческих исполнений аудиокниг — для обратного проектирования неявных правил повествовательной подачи. Авторы верно определяют, что многомиллиардная индустрия аудиокниг, по сути, является колоссальным, уже существующим набором аннотаций для выразительной речи. Их ключевое прозрение — рассматривать чтеца как высокоточный сенсор текстового аффекта, концепция, параллельная тому, как CycleGAN (Zhu et al., 2017) использует непарные наборы изображений для изучения перевода стиля — здесь «стилем» является просодическое исполнение.
Логическая последовательность: Логика убедительна: 1) Выровнять текст и аудио для создания размеченного набора данных. 2) Использовать мощный NLP (MPNet) для понимания текста. 3) Использовать последовательную модель (LSTM) для отображения контекста на просодию. 4) Победить коммерческого гиганта (Google) в его же игре по метрикам корреляции. Последовательность от создания данных до превосходства модели чиста и хорошо подтверждена их показателями побед 22/24 и 23/24. Однако цепочка ослабевает на последнем, критически важном звене: субъективном предпочтении слушателей. Результат 12/22 статистически неубедителен и раскрывает вечную проблему ИИ-аудио: «хорошие метрики, посредственный опыт».
Сильные стороны и недостатки: Сила неоспорима в наборе данных и ясном, измеримом превосходстве над базовым TTS в захвате объективных просодических контуров. Анализ на уровне персонажей (мужской vs. женский, повествование vs. диалог) — это жемчужина эмпирического наблюдения, которая предоставляет как валидацию модели, так и захватывающее понимание человеческого исполнения. Главный недостаток — зависимость от постфактумного «взлома» SSML. Как скажет любой звукорежиссёр, применение управления просодией постфактум к общему TTS-голосу часто звучит искусственно и разрозненно — как использование графического эквалайзера на плохой записи. Результаты человеческой оценки кричат об этом ограничении. Модель предсказывает правильные ноты, но синтезирующий движок не может сыграть их в тон. Более амбициозный, end-to-end подход, как в моделях типа FastSpeech 2, является необходимым, но более сложным следующим шагом.
Практические выводы: Для продуктовых команд непосредственный вывод — лицензировать или построить на основе этого набора данных и модели, чтобы добавить режим «Сказочник» или «Выразительный» к существующим TTS-предложениям — это реализуемая функция на ближайшую перспективу. Для исследователей путь двоякий: Во-первых, интегрировать это предсказание просодии непосредственно в акустическую модель нейронной TTS-системы, выйдя за рамки SSML. Во-вторых, расширить анализ за пределы трёх базовых атрибутов, включив качество голоса (придыхание, хрипота) и более тонкие эмоциональные состояния, возможно, используя ресурсы вроде корпуса MSP-Podcast для анализа эмоциональной речи. Статья успешно открывает богатую жилу исследований; теперь начинается тяжёлая работа по очистке руды.