-
#1评估语言模型在虚构内容生成中的世界观构建能力分析大语言模型维持虚构世界一致性的能力,揭示其在创意写作中叙事连贯性与状态保持方面的局限性。
-
#2audio-novel - 技术文档与资源关于audio-novel技术及其应用的全面技术文档与资源。
-
#3基于自然语言查询的跨模态音频检索研究使用自由形式自然语言查询检索音频的方法,为跨模态音频检索引入新基准和基线模型。
-
#4有声书体验的概念化:一个理论框架分析阅读纸质书与收听有声书差异的理论框架,强调移动收听实践。
-
#5AudioBoost:通过LLM生成合成查询增强Spotify有声读物搜索发现分析AudioBoost系统,该系统利用LLM从有声读物元数据生成合成查询,以改善Spotify冷启动场景下的检索和查询建议。
-
#6AudioBoost:通过LLM生成合成查询增强Spotify搜索中的有声书发现分析AudioBoost系统,该系统利用大语言模型生成合成查询,以解决Spotify搜索引擎在冷启动场景下有声书可检索性低的问题。
-
#7Audiobook-CC:一种可控的长上下文多播有声书生成框架分析Audiobook-CC,这是一个用于生成连贯、富有情感表现力的多播有声书的新型语音合成框架,具备细粒度控制和长上下文建模能力。
-
#8Audiobook-CC:一个可控的长上下文多播有声书生成框架分析Audiobook-CC,这是一个用于生成连贯、情感丰富、上下文一致且可精细控制的多播有声书的新型TTS框架。
-
#9《数字有声书:新媒体、用户与体验》分析——媒介研究视角对《数字有声书》书评的批判性分析,探讨媒介化理论、后现象学及音频文学消费的演变格局。
-
#10有声书端到端自动语音翻译:语料库、模型与分析基于增强版有声书语料库,分析端到端语音到文本翻译模型,探索训练场景与模型效率。
-
#11电影中的音乐与叙事层级:一种叙事学分析从叙事学视角深入分析电影音乐,探讨音乐在电影不同叙事层级中的功能与运作机制。
-
#12Spotify基于图神经网络的个性化有声书推荐系统Spotify创新的2T-HGNN系统结合异构图神经网络和双塔模型,实现可扩展的有声书推荐,启动率提升46%
-
#13J-MAC:面向语音合成的日语多说话人有声书语料库分析J-MAC语料库构建方法、技术贡献、评估结果以及富有表现力的有声书语音合成的未来方向。
-
#14MAMLCon:用于持续少样本口语词分类的元学习一种新颖的元学习方法(MAMLCon),用于缓解口语词分类持续少样本学习中的灾难性遗忘,性能优于OML等现有方法。
-
#15移动有声书助力EFL听力理解:面向大学生的应用框架分析与整合移动有声书(MABs)以提升EFL大学生听力理解能力的框架,涵盖优势、选择、实施与评估。
-
#16面向EFL听力理解的移动有声书:大学生应用框架分析并构建了整合移动有声书以发展EFL大学生听力理解技能的框架,涵盖优势、选材、实施与评估。
-
#17Movie101v2:一个用于自动电影旁白生成的改进基准分析大规模双语电影旁白数据集Movie101v2,包括其三阶段任务路线图、基线评估及未来研究方向。
-
#18音乐与歌词对口语词汇识别的影响:分析与启示分析背景音乐(含歌词与不含歌词)如何影响口语词汇识别的研究,探讨其对社交场景及未来工作的启示。
-
#19WonderFlow:以叙事为中心的动态数据视频设计一款交互式创作工具,通过将叙事与图表动画关联并提供结构感知的动画效果,简化动态数据视频的创建过程。
-
#20卡通视频叙事生成:任务形式化、数据集与模型一篇研究论文,介绍了视频自动叙事生成任务,提出了基于《小猪佩奇》的新数据集,并提出了时序与内容生成的模型。
-
#21非母语口语词汇处理的语音模型:分析与启示分析一个探索语音感知在非母语词汇处理中作用的计算模型,对传统的音系学解释提出挑战。
-
#22口语词汇的音义联合嵌入及其在口语内容检索中的应用一个两阶段框架,用于嵌入同时包含语音和语义信息的口语词汇,实现超越简单词项匹配的高级口语文档检索。
-
#23有声书韵律分析:基于NLP模型的增强型文本转语音技术研究利用NLP和语言模型从叙事文本中预测韵律属性(音高、音量、语速),以提升有声书生成的TTS质量。
-
#24基于大语言模型的不可靠叙述者分类研究利用大语言模型计算识别不可靠叙述者的研究,提出TUN A数据集及叙述内、叙述间和文本间不可靠性分类框架。
-
#25基于音频叙述的弱监督动作检测本研究探讨如何利用嘈杂的音频叙述作为弱监督信号来训练动作检测模型,在利用多模态视频特征的同时,显著降低标注成本。
-
#26多角色有声书:基于多说话人的零样本生成技术采用多模态说话人角色画像与大模型脚本指令的零样本方案,无需昂贵训练与人工标注即可生成富有表现力的有声内容。
-
#27MultiActor-Audiobook:基于面孔与声音的零样本有声书生成对MultiActor-Audiobook的技术分析,这是一个利用多模态说话人角色和基于LLM的脚本指令生成富有表现力有声书的新型零样本系统。
最后更新: 2026-02-25 12:01:16