J-MAC: Японский многоговорящий аудиокнижный корпус для синтеза речи

1. Введение

В статье представлен J-MAC (Japanese Multi-speaker Audiobook Corpus) — новый речевой корпус, разработанный для продвижения исследований в области выразительного, контекстно-зависимого синтеза речи, в частности для приложений аудиокниг. Авторы утверждают, что хотя синтез речи в стиле чтения достиг почти человеческого качества, следующей границей является обработка сложных, межфразовых контекстов, характерной для говорящего выразительности и повествовательного потока — всего, что критически важно для создания увлекательных аудиокниг. Отсутствие качественных многоговорящих аудиокнижных корпусов было серьёзным препятствием. J-MAC решает эту проблему, предоставляя метод автоматического построения такого корпуса из коммерчески доступных аудиокниг, прочитанных профессиональными дикторами, делая результирующий набор данных открытым.

2. Построение корпуса

Процесс построения представляет собой трёхэтапный конвейер, разработанный для автоматизации и независимости от языка.

2.1 Сбор данных

Аудиокниги отбираются на основе двух основных критериев: 1) Наличие точного эталонного текста (предпочтительно романов, не защищённых авторским правом, чтобы избежать ошибок ASR на именованных сущностях), и 2) Существование нескольких версий, начитанных разными профессиональными дикторами, чтобы охватить разнообразные выразительные стили. Это отдаёт приоритет разнообразию говорящих перед объёмом данных от одного диктора.

2.2 Очистка и выравнивание данных

Исходный аудио проходит обработку для извлечения чистых речевых сегментов и их точного выравнивания с соответствующим текстом. Это включает разделение источников, грубое выравнивание с использованием Connectionist Temporal Classification (CTC) и точную доработку с использованием Voice Activity Detection (VAD).

3. Техническая методология

3.1 Разделение вокала и инструментов

Для выделения чистой речи из возможной фоновой музыки или звуковых эффектов в аудиокнигах используется модель разделения источников (например, на основе Deep Clustering или Conv-TasNet). Этот шаг критически важен для получения высококачественных обучающих данных для моделей синтеза.

3.2 Выравнивание на основе CTC

Модель ASR, обученная с CTC, обеспечивает начальное, грубое выравнивание между аудиоволной и текстовой последовательностью. Функция потерь CTC $\mathcal{L}_{CTC} = -\log P(\mathbf{y}|\mathbf{x})$, где $\mathbf{x}$ — входная последовательность, а $\mathbf{y}$ — целевая последовательность меток, позволяет выполнять выравнивание без принудительной сегментации.

3.3 Уточнение на основе VAD

Грубые выравнивания CTC уточняются с использованием системы обнаружения речевой активности (VAD). Этот шаг удаляет неречевые сегменты (паузы, вдохи) и корректирует границы, чтобы каждый аудиосегмент точно соответствовал текстовой единице (например, предложению), повышая точность пар текст-аудио.

4. Результаты экспериментов и оценка

Авторы провели оценку синтеза речи для аудиокниг с использованием моделей, обученных на J-MAC. Ключевые выводы включают:

Улучшение модели обобщается: Улучшения архитектуры синтеза повысили естественность выходной речи у разных говорящих в корпусе.
Переплетённые факторы: Воспринимаемая естественность сильно зависела от сложного взаимодействия между методом синтеза, характеристиками голоса говорящего и самим содержанием книги. Разделение этих факторов остаётся сложной задачей.

Описание диаграммы (подразумеваемое): Гипотетическая столбчатая диаграмма показала бы средние оценки мнений (MOS) для естественности в различных системах синтеза (например, Tacotron2, FastSpeech2) и для разных говорящих из J-MAC. Диаграмма, вероятно, показала бы вариативность между говорящими для одной и той же модели и согласованные тенденции улучшения для продвинутых моделей у всех говорящих, визуально подтверждая два ключевых вывода.

5. Ключевые выводы и обсуждение

J-MAC успешно предоставляет масштабируемый, автоматизированный конвейер для создания выразительных речевых корпусов.
Многоговорящий дизайн с одной и той же книгой является уникальным преимуществом для изучения идентичности говорящего и выразительности.
Оценка подчёркивает, что будущие модели TTS для аудиокниг должны учитывать переплетённую природу содержания, говорящего и стиля.

6. Оригинальный анализ: отраслевая перспектива

Ключевая идея: Статья о J-MAC — это не просто о новом наборе данных; это стратегический ход для смены парадигмы TTS с генерации изолированных высказываний на повествовательный интеллект. В то время как такие модели, как WaveNet и Tacotron, покорили точность воспроизведения, они в значительной степени игнорировали макроструктуру речи. J-MAC, предоставляя параллельные повествования от нескольких профессиональных дикторов, является необходимым субстратом для моделей, чтобы учиться не только тому, как говорить, но и тому, как исполнять историю. Это согласуется с общей отраслевой тенденцией, наблюдаемой в работах вроде статьи Google AudioLM, которая стремится моделировать аудио контекстно-зависимым, иерархическим образом.

Логическая последовательность: Авторы правильно определяют узкое место — данные. Их решение прагматично: извлекать существующие, высококачественные художественные произведения (аудиокниги), а не заказывать новые записи. Технический конвейер продуман — он использует зрелые технологии (CTC, VAD) в новой комбинации для конкретной, высокоценной цели. Затем оценка использует этот новый ресурс, чтобы выявить критический, неочевидный вывод: в выразительном синтезе нельзя оптимизировать под «лучшую модель», не зависящую от говорящего. Качество неразрывно связано с идентичностью говорящего.

Сильные стороны и недостатки: Главная сила — принцип дизайна корпуса. Выбор профессиональных дикторов и сравнение по одному тексту блестяще подходит для исследований управляемости. Автоматизированный конвейер — значительный вклад в воспроизводимость. Однако недостаток статьи — её начальная стадия оценки. Вывод о «переплетённых факторах» критически важен, но лишь констатирован. Необходим более глубокий анализ, возможно, с использованием методов из литературы о переносе стиля (например, архитектур энкодеров в Global Style Tokens или методов разделения, исследуемых в CycleGAN-VC). Какая часть вариативности обусловлена акустическим тембром, а какая — просодическим стилем или семантической интерпретацией? Статья открывает дверь, но не проходит через неё.

Практические выводы: Для исследователей: используйте J-MAC для тестирования методов разделения факторов. Для продуктовых команд: эта работа сигнализирует, что следующее поколение голосового ИИ для подкастов, рекламы и книг будет происходить не из большего количества данных в стиле чтения, а из данных о повествовательном исполнении. Начинайте курировать выразительные, длинные наборы данных. Сама методология экспортируема — представьте «J-MAC для подкастов» или «J-MAC для трейлеров фильмов». Главный урок заключается в том, что в эпоху базовых моделей стратегическая ценность уникально структурированного, высококачественного набора данных, такого как J-MAC, может перевесить ценность любой отдельной архитектуры модели, опубликованной вместе с ним.

7. Технические детали и математическая формулировка

Процесс выравнивания опирается на алгоритм прямого-обратного хода CTC. Для входной последовательности $\mathbf{x}$ длины $T$ и целевой последовательности $\mathbf{l}$ длины $L$, CTC определяет распределение по выравниваниям, вводя пустой токен ($\epsilon$) и допуская повторения. Вероятность цели — это сумма по всем допустимым выравниваниям $\pi$:

$P(\mathbf{l} | \mathbf{x}) = \sum_{\pi \in \mathcal{B}^{-1}(\mathbf{l})} P(\pi | \mathbf{x})$

где $\mathcal{B}$ — функция, которая схлопывает повторяющиеся токены и удаляет пустые. Уточнение VAD можно сформулировать как задачу сегментации, находя границы $\{t_i\}$, которые максимизируют правдоподобие речи внутри сегментов и неречи между ними, часто используя энергетические признаки или обученный классификатор.

8. Фреймворк анализа: пример использования

Сценарий: Оценка влияния стиля говорящего на воспринимаемую «вовлечённость» в синтезе аудиокниг.

Применение фреймворка:

Разделение данных: Возьмите двух профессиональных дикторов (A и B) из J-MAC, которые начитали одну и ту же главу романа.
Извлечение признаков: Для каждого высказывания в главе извлеките низкоуровневые дескрипторы (LLD), такие как контуры высоты тона, динамика энергии и длительность пауз, с помощью инструментов вроде OpenSMILE или Praat. Также извлеките высокоуровневые эмбеддинги стиля с использованием предобученной модели, такой как HuBERT.
Сравнительный анализ: Вычислите статистические различия (например, с использованием t-критерия или дивергенции Кульбака-Лейблера) между распределениями LLD для Говорящего A и Говорящего B для одного и того же текстового содержания. Это количественно определяет их уникальный просодический «отпечаток».
Синтез и оценка: Обучите две модели TTS: одну на данных Говорящего A, другую — Говорящего B. Синтезируйте один и тот же отрывок из романа, не встречавшийся при обучении. Проведите прослушивающий тест, где оценщики оценивают каждый синтез по параметрам «выразительность» и «повествовательная вовлечённость».
Корреляция: Скоррелируйте объективные различия в стиле (Шаг 3) с субъективными оценками вовлечённости (Шаг 4). Этот фреймворк, возможный благодаря структуре J-MAC, может изолировать, какие акустические признаки в наибольшей степени способствуют воспринимаемому качеству исполнения.

Этот пример использования демонстрирует, как J-MAC способствует причинно-следственному анализу, выходя за рамки корреляции к пониманию строительных блоков выразительной речи.

9. Будущие применения и направления исследований

Выразительное клонирование и настройка голоса: Многоговорящие данные J-MAC идеально подходят для разработки систем адаптации голоса с малым количеством примеров или без них, которые могут имитировать повествовательный стиль говорящего, а не только его тембр.
Обучение разделённым представлениям: Будущие работы могут использовать J-MAC для обучения моделей, которые разделяют содержание, идентичность говорящего и выразительный стиль в различные латентные пространства, обеспечивая детальный контроль над синтезом.
Кросс-лингвистический синтез аудиокниг: Методологию можно применить к другим языкам для построения аналогичных корпусов, что позволит исследовать сохранение выразительного стиля при переводе или дубляже.
Создание контента с помощью ИИ: Интеграция с большими языковыми моделями (LLM) может привести к системам, которые пишут и исполняют короткие рассказы или персонализированный аудиоконтент в стиле конкретного рассказчика.
Инструменты доступности: Генерация высококачественных, выразительных аудиокниг по запросу для любого цифрового текста, значительно расширяя доступ для пользователей с нарушениями зрения.

10. Ссылки

J. Shen, et al., "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions," ICASSP, 2018.
A. Vaswani, et al., "Attention Is All You Need," NeurIPS, 2017.
Y. Ren, et al., "FastSpeech: Fast, Robust and Controllable Text to Speech," NeurIPS, 2019.
A. v. d. Oord, et al., "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499, 2016.
J.-Y. Zhu, et al., "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," ICCV, 2017. (CycleGAN)
Y. Wang, et al., "Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis," ICML, 2018.
Google AI, "AudioLM: A Language Modeling Approach to Audio Generation," Google Research Blog, 2022.
A. Graves, et al., "Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks," ICML, 2006.