-
#1人間俳優とAIナレーターによる協調的ストーリーテリング:イベントレポート分析即興劇におけるGPT-3の共同ナレーターとしての活用分析。方法論、観客・出演者からのフィードバック、人間とAIの創造的協働への示唆を網羅。
-
#2audio-novel - 技術文書とリソースaudio-novel技術とその応用に関する包括的な技術文書およびリソースです。
-
#3自然言語クエリを用いたクロスモーダル音声検索自由形式の自然言語クエリを用いた音声検索に関する研究。クロスモーダル音声検索のための新たなベンチマークとベースラインを提案。
-
#4AudioBoost: LLM生成の合成クエリによるSpotify検索におけるオーディオブック発見性の向上Spotifyのコールドスタート問題に対処するため、LLMを用いてオーディオブックメタデータから合成クエリを生成し、検索精度とクエリ提案を改善するAudioBoostシステムの分析。
-
#5Audiobook-CC: 制御可能な長文脈マルチキャストオーディオブック生成のためのフレームワークAudiobook-CCの分析。細粒度制御と長文脈モデリングにより、一貫性があり感情表現豊かなマルチキャストオーディオブックを生成する新しい音声合成フレームワーク。
-
#6Audiobook-CC: きめ細かい制御が可能な長文マルチキャストオーディオブック生成のためのフレームワークAudiobook-CCの分析。一貫性、感情表現、文脈的一貫性を備え、きめ細かい制御が可能なマルチキャストオーディオブックを生成する新しいTTSフレームワーク。
-
#7Spotifyにおけるグラフニューラルネットワークを用いたパーソナライズされたオーディオブック推薦Spotifyの革新的な2T-HGNNシステムは、異種グラフニューラルネットワークとTwo Towerモデルを組み合わせ、スケーラブルなオーディオブック推薦を実現し、開始率46%向上を達成。
-
#8MAMLCon: 連続的少数ショット音声単語分類のためのメタ学習音声単語分類における連続的少数ショット学習の破滅的忘却を軽減する新規メタ学習手法(MAMLCon)を提案。OMLなどの既存手法を上回る性能を示す。
-
#9EFLリスニング理解のためのモバイルオーディオブック:大学生向けフレームワークEFL大学生のリスニング理解スキル向上におけるモバイルオーディオブック統合の分析。利点、選定基準、指導段階、評価を網羅。
-
#10Movie101v2:自動映画ナレーション生成のための改良ベンチマーク大規模二言語映画ナレーションデータセットMovie101v2の分析。3段階タスクロードマップ、ベースライン評価、将来の研究方向を含む。
-
#11音楽と歌詞が音声単語認識に及ぼす影響:分析と示唆背景音楽(歌詞あり/なし)が音声単語認識に与える影響に関する研究分析。社会的環境への示唆と今後の展望について。
-
#12WonderFlow: ナレーション中心のアニメーションデータビデオ設計ナレーションとチャートアニメーションを連携させ、構造を考慮したアニメーション効果を提供することで、アニメーションデータビデオの作成を簡素化するインタラクティブなオーサリングツール。
-
#13アニメ動画のためのナレーション生成:タスクの形式化、データセット、モデル本論文は、動画に対するナレーション生成という新規タスクを提案し、『Peppa Pig』からのデータセットを提示するとともに、タイミング決定と内容生成のためのモデルを提案する。
-
#14非母語話者の音声単語処理における音声モデル:分析と考察非母語単語処理における音声知覚の役割を探る計算モデルの分析。従来の音韻論的解釈に挑戦する。
-
#15音声単語の音韻的・意味的埋め込みと音声コンテンツ検索への応用音声単語に音韻情報と意味情報の両方を埋め込むための二段階フレームワーク。単純な用語一致を超えた高度な音声文書検索を可能にする。
-
#16オーディオブックの韻律分析:テキスト読み上げ向上のためのNLPモデルNLPと言語モデルを用いて物語テキストから韻律属性(ピッチ、音量、速度)を予測し、オーディオブック生成のためのTTSを改善する研究。
-
#17音声ナレーションに導かれた弱教師付き行動検出ノイズを含む音声ナレーションを弱教師として活用し、動画中の行動検出モデルを訓練する手法を探る研究。マルチモーダル特徴を活用しつつ、アノテーションコストを削減する。
-
#18MultiActor-Audiobook: 複数話者によるゼロショット生成マルチモーダル話者ペルソナとLLMベースのスクリプト指示を用いた表現力豊かなオーディオブックのゼロショット生成手法。高コストな学習と手動アノテーションを不要にします。
-
#19MultiActor-Audiobook: 顔と声を用いたゼロショット生成マルチモーダル話者ペルソナとLLMベースのスクリプト指示を用いた表現力豊かなオーディオブックを生成する新規ゼロショットシステム、MultiActor-Audiobookの技術分析。
最終更新: 2026-01-12 05:31:34