-
#1audio-novel - Техническая документация и ресурсыПолная техническая документация и ресурсы о технологии audio-novel и её применениях.
-
#2Кросс-модальный поиск аудио по естественно-языковым запросамИсследование поиска аудио с использованием произвольных естественно-языковых запросов, представляющее новые эталоны и базовые методы для кросс-модального поиска аудио.
-
#3AudioBoost: Улучшение поиска аудиокниг в Spotify с помощью синтетических запросов, генерируемых LLMАнализ системы AudioBoost, использующей LLM для генерации синтетических запросов из метаданных аудиокниг для улучшения поиска и подсказок запросов в Spotify в условиях холодного старта.
-
#4Audiobook-CC: Фреймворк для управляемой генерации многоголосых аудиокниг с длинным контекстомАнализ Audiobook-CC — нового фреймворка синтеза речи для создания связных, эмоционально выразительных многоголосых аудиокниг с детальным контролем и моделированием длинного контекста.
-
#5Audiobook-CC: Фреймворк для управляемой генерации многоголосых аудиокниг с длинным контекстомАнализ Audiobook-CC — нового TTS-фреймворка для генерации связных, эмоционально выразительных и контекстуально согласованных многоголосых аудиокниг с детальным управлением.
-
#6Персонализированные рекомендации аудиокниг в Spotify с использованием графовых нейронных сетейИнновационная система Spotify 2T-HGNN, сочетающая гетерогенные графовые нейронные сети и двухбашенные модели для масштабируемых рекомендаций аудиокниг с ростом показателя начала прослушивания на 46%.
-
#7MAMLCon: Метаобучение для непрерывной классификации произнесенных слов с малым числом примеровНовый подход на основе метаобучения (MAMLCon), смягчающий катастрофическое забывание при непрерывном обучении с малым числом примеров для классификации произнесенных слов, превосходящий существующие методы, такие как OML.
-
#8Мобильные аудиокниги для развития навыков аудирования по английскому как иностранному: Методическая основа для студентов вузовАнализ интеграции мобильных аудиокниг для развития навыков аудирования у студентов, изучающих английский как иностранный: преимущества, критерии отбора, этапы обучения и оценка.
-
#9Movie101v2: Улучшенный эталонный набор данных для автоматической генерации кинонаррацииАнализ Movie101v2, крупномасштабного двуязычного набора данных для кинонаррации, включая его трехэтапную дорожную карту задач, базовые оценки и направления будущих исследований.
-
#10Влияние музыки и текста песен на распознавание речи: анализ и выводыАнализ исследований о влиянии фоновой музыки с текстом и без на распознавание речи, с выводами для социальных сред и будущих работ.
-
#11WonderFlow: Нарративно-ориентированное проектирование анимированных видеороликов с даннымиИнтерактивный инструмент для создания анимированных видеороликов с данными, упрощающий процесс за счёт связывания повествования с анимацией графиков и предоставления учитывающих структуру анимационных эффектов.
-
#12Генерация повествования для мультипликационных видео: Формализация задачи, датасет и моделиВ статье представлена новая задача генерации повествования для видео, датасет на основе
-
#13Фонетическая модель обработки иноязычной устной речи: анализ и выводыАнализ вычислительной модели, исследующей роль фонетического восприятия в обработке иноязычных слов, бросающей вызов традиционным фонологическим объяснениям.
-
#14Фонетическое и семантическое векторное представление устных слов с приложениями в поиске по звуковому контентуДвухэтапная структура для создания векторных представлений устных слов, объединяющих фонетическую и семантическую информацию, что позволяет осуществлять расширенный поиск по звуковым документам, выходящий за рамки простого сопоставления терминов.
-
#15Анализ просодии аудиокниг: NLP-модели для улучшения синтеза речиИсследование предсказания просодических атрибутов (высота тона, громкость, темп) из повествовательного текста с использованием NLP и языковых моделей для улучшения TTS при создании аудиокниг.
-
#16Классификация ненадежных нарраторов с помощью больших языковых моделейИсследование вычислительной идентификации ненадежных нарраторов с использованием LLM, включающее набор данных TUN A и классификацию интра-, интер-наррационной и интертекстуальной ненадежности.
-
#17Слабо контролируемое детектирование действий с использованием аудио-наррацииИсследование о том, как использовать зашумлённую аудио-наррацию в качестве слабого контроля для обучения моделей детектирования действий в видео, снижая затраты на разметку и используя мультимодальные признаки.
-
#18MultiActor-Audiobook: Генерация аудиокниг с несколькими дикторами без обученияПодход zero-shot для генерации выразительных аудиокниг с использованием мультимодальных персонажей дикторов и инструкций на основе LLM, исключающий дорогостоящее обучение и ручную разметку.
-
#19MultiActor-Audiobook: Генерация аудиокниг с лицами и голосами в режиме Zero-ShotТехнический анализ системы MultiActor-Audiobook, новой zero-shot системы для генерации выразительных аудиокниг с использованием мультимодальных персонажей и инструкций на основе LLM.
Последнее обновление: 2026-01-11 23:31:27