-
#1audio-novel - 技術文檔及資源關於audio-novel技術同應用嘅全面技術文檔同資源。
-
#2跨模態音頻檢索:自然語言查詢技術研究利用自由形式自然語言查詢進行音頻檢索,為跨模態音頻檢索引入新基準與基線方法。
-
#3AudioBoost:透過LLM生成合成查詢,提升Spotify搜尋中嘅有聲書發現能力分析AudioBoost系統,佢利用LLM從有聲書元數據生成合成查詢,以改善Spotify冷啟動場景下嘅檢索同查詢建議。
-
#4Audiobook-CC:一個可控長上下文多角色有聲書生成框架分析Audiobook-CC呢個創新語音合成框架,佢能夠生成連貫、富有情感表現力嘅多角色有聲書,具備細粒度控制同長上下文建模能力。
-
#5Audiobook-CC:一個可控長上下文多播有聲書生成框架分析Audiobook-CC,一個用於生成連貫、情感豐富且語境一致嘅多播有聲書嘅新型TTS框架,具備細粒度控制能力。
-
#6Spotify運用圖神經網絡實現個人化有聲書推薦Spotify創新2T-HGNN系統結合異構圖神經網絡同雙塔模型,實現可擴展有聲書推薦,令開始收聽率提升46%
-
#7MAMLCon:用於持續少量樣本口語詞彙分類嘅元學習方法一種新穎嘅元學習方法(MAMLCon),能夠喺持續少量樣本口語詞彙分類學習中減輕災難性遺忘,表現超越OML等現有方法。
-
#8流動有聲書對提升大專生英語聆聽理解能力:一個應用框架分析整合流動有聲書以發展大專EFL學生聆聽理解能力,涵蓋優勢、選擇準則、教學階段及評估。
-
#9Movie101v2:一個改進嘅自動電影旁白生成基準分析大規模雙語電影旁白數據集Movie101v2,包括其三階段任務路線圖、基準評估同未來研究方向。
-
#10音樂同歌詞對口語辨識嘅影響:分析與啟示分析背景音樂(有冇歌詞)點樣影響口語辨識嘅研究,探討對社交場合同未來工作嘅啟示。
-
#11WonderFlow:以旁述為中心嘅動態數據影片設計一個互動創作工具,透過將旁述連結到圖表動畫,並提供結構感知動畫效果,簡化動態數據影片嘅製作過程。
-
#12卡通影片旁白生成:任務定義、數據集與模型本文介紹影片旁白生成新任務,提出《Peppa Pig》數據集,並設計時機與內容生成模型。
-
#13非母語口語詞彙處理嘅語音模型:分析與見解分析一個探討語音感知喺非母語詞彙處理中作用嘅計算模型,挑戰傳統音韻學解釋。
-
#14語音詞彙嘅語音與語義嵌入技術及其在語音內容檢索中嘅應用一個兩階段框架,用於嵌入同時包含語音同語義信息嘅口語詞彙,實現超越簡單詞彙匹配嘅高級語音文件檢索。
-
#15運用大型語言模型分類不可靠敘事者研究利用LLMs計算識別不可靠敘事者,引入TUN A數據集同三類不可靠性分類:敘事內、敘事間同文本間。
-
#16基於語音旁述嘅弱監督動作檢測本研究探討點樣利用有雜訊嘅語音旁述作為弱監督,去訓練影片動作檢測模型,從而降低標註成本,同時利用多模態特徵。
-
#17MultiActor-有聲書:多角色零樣本生成技術採用多模態角色設定同LLM劇本指令嘅零樣本方法,生成生動有聲書,免除昂貴訓練同人手標註。
-
#18MultiActor-Audiobook:零樣本生成,結合樣貌與聲音對MultiActor-Audiobook嘅技術分析,呢個係一個利用多模態講者角色同基於LLM嘅劇本指令,嚟生成富有表現力有聲書嘅新穎零樣本系統。
最後更新: 2026-01-11 23:31:27