-
#1audio-novel - 技術文件與資源關於audio-novel技術與應用的全面技術文件與資源。
-
#2基於自然語言查詢的跨模態音訊檢索研究使用自由格式自然語言查詢檢索音訊,為跨模態音訊檢索引入新基準與基線方法。
-
#3AudioBoost:透過LLM生成合成查詢,提升Spotify搜尋中的有聲書探索分析AudioBoost系統,其運用LLM從有聲書元數據生成合成查詢,以改善Spotify冷啟動情境下的檢索與查詢建議。
-
#4Audiobook-CC:一個可控的長上下文多角色有聲書生成框架分析Audiobook-CC,這是一個用於生成連貫、情感豐富且具細粒度控制與長上下文建模能力的多角色有聲書之新穎語音合成框架。
-
#5Audiobook-CC:一個可控的長上下文多播有聲書生成框架分析 Audiobook-CC,這是一個新穎的 TTS 框架,用於生成連貫、情感豐富、上下文一致且具備細粒度控制的多播有聲書。
-
#6Spotify透過圖神經網路實現個人化有聲書推薦Spotify創新的2T-HGNN系統結合異質圖神經網路與雙塔模型,實現可擴展的有聲書推薦,使開始收聽率提升46%。
-
#7MAMLCon:用於持續性少量樣本口語詞彙分類的元學習方法一種新穎的元學習方法(MAMLCon),能減輕口語詞彙分類在持續性少量樣本學習中的災難性遺忘問題,表現優於OML等現有方法。
-
#8行動有聲書於EFL聽力理解之應用:大學生學習框架分析整合行動有聲書以提升EFL大學生聽力理解能力,涵蓋優勢、選擇標準、教學階段與評估方法。
-
#9Movie101v2:一個改進的自動電影旁白生成基準分析用於電影旁白的大規模雙語資料集Movie101v2,包括其三階段任務路線圖、基準評估與未來研究方向。
-
#10音樂與歌詞對口語詞彙辨識的影響:分析與啟示分析背景音樂(含歌詞與不含歌詞)如何影響口語詞彙辨識的研究,探討其對社交場域及未來工作的啟示。
-
#11WonderFlow:以敘事為核心的動態資料影片設計一款互動式創作工具,透過將敘事與圖表動畫連結,並提供結構感知的動畫效果,簡化動態資料影片的製作過程。
-
#12卡通影片敘事生成:任務形式化、資料集與模型本文介紹影片敘事生成的新任務,提出來自《粉紅豬小妹》的資料集,並為時機判斷與內容生成提出模型。
-
#13非母語口語詞彙處理的語音模型:分析與洞見分析一個探討語音感知在非母語詞彙處理中作用的計算模型,挑戰傳統的音韻學解釋。
-
#14語音與語義融合之口語詞嵌入技術及其在口語內容檢索之應用一個兩階段框架,用於嵌入同時包含語音與語義資訊的口語詞彙,實現超越簡單詞彙匹配的進階口語文件檢索。
-
#15有聲書韻律分析:用於增強文字轉語音的NLP模型研究利用NLP與語言模型從敘事文本預測韻律屬性(音高、音量、語速),以提升有聲書生成之文字轉語音品質。
-
#16使用大型語言模型分類不可靠敘事者利用LLMs計算識別不可靠敘事者之研究,包含TUN A資料集及敘事內、敘事間與文本間不可靠性分類。
-
#17以音訊旁白引導的弱監督動作偵測本研究探討如何利用帶有雜訊的音訊旁白作為弱監督訊號來訓練影片動作偵測模型,以降低標註成本並善用多模態特徵。
-
#18MultiActor-Audiobook:多說話者零樣本生成技術運用多模態說話者角色設定與基於LLM的腳本指令,實現無需昂貴訓練與人工標註的零樣本有聲書生成方法。
-
#19MultiActor-Audiobook:結合面孔與聲音的零樣本生成技術針對MultiActor-Audiobook的技術分析,這是一個利用多模態說話者角色與基於LLM的腳本指令,生成富有表現力有聲書的新穎零樣本系統。
最後更新: 2026-01-11 23:31:27