-
#1audio-novel - 技术文档与资源关于audio-novel技术及其应用的全面技术文档与资源。
-
#2基于自然语言查询的跨模态音频检索研究使用自由形式自然语言查询检索音频的方法,为跨模态音频检索引入新基准和基线模型。
-
#3AudioBoost:通过LLM生成合成查询增强Spotify有声读物搜索发现分析AudioBoost系统,该系统利用LLM从有声读物元数据生成合成查询,以改善Spotify冷启动场景下的检索和查询建议。
-
#4Audiobook-CC:一种可控的长上下文多播有声书生成框架分析Audiobook-CC,这是一个用于生成连贯、富有情感表现力的多播有声书的新型语音合成框架,具备细粒度控制和长上下文建模能力。
-
#5Audiobook-CC:一个可控的长上下文多播有声书生成框架分析Audiobook-CC,这是一个用于生成连贯、情感丰富、上下文一致且可精细控制的多播有声书的新型TTS框架。
-
#6Spotify基于图神经网络的个性化有声书推荐系统Spotify创新的2T-HGNN系统结合异构图神经网络和双塔模型,实现可扩展的有声书推荐,启动率提升46%
-
#7MAMLCon:用于持续少样本口语词分类的元学习一种新颖的元学习方法(MAMLCon),用于缓解口语词分类持续少样本学习中的灾难性遗忘,性能优于OML等现有方法。
-
#8移动有声书助力EFL听力理解:面向大学生的应用框架分析整合移动有声书以提升EFL大学生听力理解能力的优势、选材标准、教学阶段与评估方法。
-
#9Movie101v2:一个用于自动电影旁白生成的改进基准分析大规模双语电影旁白数据集Movie101v2,包括其三阶段任务路线图、基线评估及未来研究方向。
-
#10音乐与歌词对口语词汇识别的影响:分析与启示分析背景音乐(含歌词与不含歌词)如何影响口语词汇识别的研究,探讨其对社交场景及未来工作的启示。
-
#11WonderFlow:以叙事为中心的动态数据视频设计一款交互式创作工具,通过将叙事与图表动画关联并提供结构感知的动画效果,简化动态数据视频的创建过程。
-
#12卡通视频叙事生成:任务形式化、数据集与模型本文介绍了视频叙事生成这一新任务,提出了基于《小猪佩奇》的数据集,并提出了时序判定与内容生成的模型。
-
#13非母语口语词汇处理的语音模型:分析与启示分析一个探索语音感知在非母语词汇处理中作用的计算模型,对传统的音系学解释提出挑战。
-
#14口语词汇的音义联合嵌入及其在口语内容检索中的应用一个两阶段框架,用于嵌入同时包含语音和语义信息的口语词汇,实现超越简单词项匹配的高级口语文档检索。
-
#15有声书韵律分析:基于NLP模型的增强型文本转语音技术研究利用NLP和语言模型从叙事文本中预测韵律属性(音高、音量、语速),以提升有声书生成的TTS质量。
-
#16基于大语言模型的不可靠叙述者分类研究利用大语言模型计算识别不可靠叙述者的研究,提出TUN A数据集及叙述内、叙述间和文本间不可靠性分类框架。
-
#17基于音频解说的弱监督动作检测本研究探讨如何利用带噪声的音频解说作为弱监督信号来训练视频动作检测模型,在利用多模态特征的同时降低标注成本。
-
#18多角色有声书:基于多说话人的零样本生成技术采用多模态说话人角色画像与大模型脚本指令的零样本方案,无需昂贵训练与人工标注即可生成富有表现力的有声内容。
-
#19MultiActor-Audiobook:基于面孔与声音的零样本有声书生成对MultiActor-Audiobook的技术分析,这是一个利用多模态说话人角色和基于LLM的脚本指令生成富有表现力有声书的新型零样本系统。
最后更新: 2026-01-12 05:31:35