-
#1人間俳優とAIナレーターによる協調的ストーリーテリング:イベントレポート分析即興劇におけるGPT-3の共同ナレーターとしての活用分析。方法論、観客・出演者からのフィードバック、人間とAIの創造的協働への示唆を網羅。
-
#2大規模言語モデルのフィクション生成における世界観評価LLMが一貫した架空世界を維持する能力を分析。創造的執筆における物語の一貫性と状態保持の限界を明らかにする。
-
#3audio-novel - 技術文書とリソースaudio-novel技術とその応用に関する包括的な技術文書およびリソースです。
-
#4自然言語クエリを用いたクロスモーダル音声検索自由形式の自然言語クエリを用いた音声検索に関する研究。クロスモーダル音声検索のための新たなベンチマークとベースラインを提案。
-
#5オーディオブック体験の概念化:理論的枠組み印刷書籍を読むこととオーディオブックを聴くことの違いを概念化する理論的枠組みの分析。特に、デジタル技術によって可能となったモバイルリスニングの実践に焦点を当てる。
-
#6AudioBoost: LLM生成の合成クエリによるSpotify検索におけるオーディオブック発見性の向上Spotifyのコールドスタート問題に対処するため、LLMを用いてオーディオブックメタデータから合成クエリを生成し、検索精度とクエリ提案を改善するAudioBoostシステムの分析。
-
#7AudioBoost: LLM生成の合成クエリによるSpotify検索におけるオーディオブック発見性の向上コールドスタートシナリオにおいて、大規模言語モデルを用いて合成クエリを生成し、Spotify検索エンジン内でのオーディオブックの検索可能性を向上させるシステム「AudioBoost」の分析。
-
#8Audiobook-CC: 制御可能な長文脈マルチキャストオーディオブック生成のためのフレームワークAudiobook-CCの分析。細粒度制御と長文脈モデリングにより、一貫性があり感情表現豊かなマルチキャストオーディオブックを生成する新しい音声合成フレームワーク。
-
#9Audiobook-CC: きめ細かい制御が可能な長文マルチキャストオーディオブック生成のためのフレームワークAudiobook-CCの分析。一貫性、感情表現、文脈的一貫性を備え、きめ細かい制御が可能なマルチキャストオーディオブックを生成する新しいTTSフレームワーク。
-
#10『デジタルオーディオブック:新たなメディア、ユーザー、体験』の分析 ― メディア研究の視点から『デジタルオーディオブック』の書評を批判的に分析し、メディア化理論、ポスト現象学、音声ベースの文学消費の進化する風景を探求する。
-
#11オーディオブックのエンドツーエンド自動音声翻訳:コーパス、モデル、分析拡張されたオーディオブックコーパスを用いたエンドツーエンド音声翻訳モデルの分析。トレーニングシナリオとモデル効率性を探求。
-
#12映画における音楽と語りのレベル:物語論的分析物語論のレンズを通じて映画音楽を深く分析し、音楽が映画内の異なる物語レベルでどのように機能するかを探求する。
-
#13Spotifyにおけるグラフニューラルネットワークを用いたパーソナライズされたオーディオブック推薦Spotifyの革新的な2T-HGNNシステムは、異種グラフニューラルネットワークとTwo Towerモデルを組み合わせ、スケーラブルなオーディオブック推薦を実現し、開始率46%向上を達成。
-
#14J-MAC: 音声合成のための日本語マルチスピーカーオーディオブックコーパスJ-MACコーパスの構築手法、技術的貢献、評価結果、表現力豊かなオーディオブック音声合成の将来展望についての分析。
-
#15MAMLCon: 連続的少数ショット音声単語分類のためのメタ学習音声単語分類における連続的少数ショット学習の破滅的忘却を軽減する新規メタ学習手法(MAMLCon)を提案。OMLなどの既存手法を上回る性能を示す。
-
#16EFLリスニング力向上のためのモバイルオーディオブック:大学生向けフレームワークEFL大学生のリスニング力向上を目的としたモバイルオーディオブック(MAB)統合の分析とフレームワーク。利点、選定、実装、評価を網羅。
-
#17大学生向けEFLリスニング力向上のためのモバイルオーディオブック:フレームワークEFL大学生のリスニング理解力育成のためのモバイルオーディオブック統合の分析とフレームワーク。利点、選定、実践、評価を網羅。
-
#18Movie101v2:自動映画ナレーション生成のための改良ベンチマーク大規模二言語映画ナレーションデータセットMovie101v2の分析。3段階タスクロードマップ、ベースライン評価、将来の研究方向を含む。
-
#19音楽と歌詞が音声単語認識に及ぼす影響:分析と示唆背景音楽(歌詞あり/なし)が音声単語認識に与える影響に関する研究分析。社会的環境への示唆と今後の展望について。
-
#20WonderFlow: ナレーション中心のアニメーションデータビデオ設計ナレーションとチャートアニメーションを連携させ、構造を考慮したアニメーション効果を提供することで、アニメーションデータビデオの作成を簡素化するインタラクティブなオーサリングツール。
-
#21アニメ動画向けナレーション生成:タスクの定式化、データセット、およびモデル動画への自動ナレーション生成タスクを紹介し、『Peppa Pig』に基づく新規データセットを提示、タイミングと内容生成のためのモデルを提案する研究論文。
-
#22非母語話者の音声単語処理における音声モデル:分析と考察非母語単語処理における音声知覚の役割を探る計算モデルの分析。従来の音韻論的解釈に挑戦する。
-
#23音声単語の音韻的・意味的埋め込みと音声コンテンツ検索への応用音声単語に音韻情報と意味情報の両方を埋め込むための二段階フレームワーク。単純な用語一致を超えた高度な音声文書検索を可能にする。
-
#24オーディオブックの韻律分析:テキスト読み上げ向上のためのNLPモデルNLPと言語モデルを用いて物語テキストから韻律属性(ピッチ、音量、速度)を予測し、オーディオブック生成のためのTTSを改善する研究。
-
#25音声ナレーションに導かれた弱教師付き行動検出ノイズの多い音声ナレーションを弱教師として活用し、アノテーションコストを削減しながらマルチモーダルな映像特徴を利用して行動検出モデルを訓練する手法を探る研究論文。
-
#26MultiActor-Audiobook: 複数話者によるゼロショット生成マルチモーダル話者ペルソナとLLMベースのスクリプト指示を用いた表現力豊かなオーディオブックのゼロショット生成手法。高コストな学習と手動アノテーションを不要にします。
-
#27MultiActor-Audiobook: 顔と声を用いたゼロショット生成マルチモーダル話者ペルソナとLLMベースのスクリプト指示を用いた表現力豊かなオーディオブックを生成する新規ゼロショットシステム、MultiActor-Audiobookの技術分析。
最終更新: 2026-02-26 12:01:07