-
#1인간 배우와 AI 내레이터의 협업 스토리텔링: 이벤트 리포트 분석라이브 즉흥극에서 GPT-3를 공동 내레이터로 활용한 분석. 방법론, 관객/배우 피드백, 인간-AI 창작 협업에 대한 함의를 다룹니다.
-
#2소설 생성 능력 평가를 위한 언어 모델의 세계관 분석LLM의 일관된 가상 세계 유지 능력 분석. 창작 글쓰기를 위한 서사 일관성과 상태 유지의 한계를 밝힘.
-
#3자연어 질의를 활용한 크로스 모달 오디오 검색자유 형식 자연어 질의를 사용한 오디오 검색 연구로, 크로스 모달 오디오 검색을 위한 새로운 벤치마크와 기준 모델을 제시합니다.
-
#4오디오북 경험의 개념화: 이론적 프레임워크인쇄된 책 읽기와 오디오북 청취 간 차이를 개념화하는 이론적 프레임워크 분석. 모바일 청취 관행을 강조합니다.
-
#5AudioBoost: LLM 생성 합성 쿼리를 통한 Spotify 검색 내 오디오북 발견 강화스포티파이의 콜드 스타트 시나리오에서 오디오북 메타데이터로 LLM을 활용해 합성 쿼리를 생성하여 검색 및 쿼리 제안을 개선하는 AudioBoost 시스템 분석.
-
#6AudioBoost: LLM 생성 합성 쿼리를 통한 Spotify 검색 내 오디오북 발견성 향상콜드 스타트 시나리오에서 Spotify 검색 엔진 내 오디오북 검색 가능성을 개선하기 위해 대규모 언어 모델을 사용해 합성 쿼리를 생성하는 AudioBoost 시스템 분석.
-
#7Audiobook-CC: 제어 가능한 장문 컨텍스트 멀티캐스트 오디오북 생성 프레임워크Audiobook-CC를 분석합니다. 이는 세밀한 제어와 장문 컨텍스트 모델링을 통해 일관되고 감정 표현이 풍부한 멀티캐스트 오디오북을 생성하는 새로운 음성 합성 프레임워크입니다.
-
#8Audiobook-CC: 세밀한 제어가 가능한 장문 멀티캐스트 오디오북 생성 프레임워크Audiobook-CC를 분석합니다. 이는 일관성 있고 감정 표현이 풍부하며 문맥적으로 일관된 멀티캐스트 오디오북을 세밀하게 제어하며 생성하는 새로운 TTS 프레임워크입니다.
-
#9'디지털 오디오북: 새로운 미디어, 사용자, 그리고 경험' 분석 - 미디어 연구 관점미디어화 이론, 후기현상학, 그리고 진화하는 오디오 기반 문학 소비 환경을 탐구한 '디지털 오디오북' 서평에 대한 비판적 분석.
-
#10오디오북의 종단 간 자동 음성 번역: 코퍼스, 모델 및 분석증강된 오디오북 코퍼스에서 종단 간 음성-텍스트 번역 모델을 분석하고, 훈련 시나리오와 모델 효율성을 탐구합니다.
-
#11영화 속 음악과 서사 수준: 서사론적 분석서사론적 관점에서 영화 음악을 심층 분석하며, 음악이 영화 내 다양한 서사 수준에서 어떻게 기능하는지 탐구합니다.
-
#12Spotify의 그래프 신경망을 활용한 개인 맞춤형 오디오북 추천 시스템Spotify의 혁신적인 2T-HGNN 시스템: 이종 그래프 신경망과 투 타워 모델을 결합하여 확장 가능한 오디오북 추천을 구현, 시작률 46% 증가 달성
-
#13J-MAC: 음성 합성을 위한 일본어 다중 화자 오디오북 코퍼스J-MAC 코퍼스 구축 방법론, 기술적 기여, 평가 결과 및 표현적 오디오북 음성 합성의 미래 방향에 대한 분석.
-
#14MAMLCon: 지속적 소량 샘플 음성 단어 분류를 위한 메타 학습음성 단어 분류를 위한 지속적 소량 샘플 학습에서 파국적 망각을 완화하는 새로운 메타 학습 접근법(MAMLCon)을 제안하며, OML과 같은 기존 방법을 능가합니다.
-
#15대학생을 위한 EFL 듣기 이해력 향상: 모바일 오디오북 활용 프레임워크대학생 EFL 학습자의 듣기 이해력 개발을 위한 모바일 오디오북(MAB) 통합 분석 및 프레임워크. 장점, 선정, 실행, 평가를 다룹니다.
-
#16대학생 EFL 듣기 이해를 위한 모바일 오디오북: 프레임워크대학생 EFL 학습자의 듣기 이해 능력 개발을 위한 모바일 오디오북 통합 분석 및 프레임워크. 장점, 선정, 실행, 평가를 다룹니다.
-
#17Movie101v2: 향상된 자동 영화 내레이션 생성을 위한 벤치마크대규모 이중언어 영화 내레이션 데이터셋인 Movie101v2 분석. 3단계 작업 로드맵, 베이스라인 평가 및 향후 연구 방향을 포함합니다.
-
#18음악과 가사가 구어 단어 인식에 미치는 영향: 분석 및 시사점배경 음악(가사 유무 포함)이 구어 단어 인식에 미치는 영향을 조사한 연구 분석. 사회적 환경 및 향후 연구에 대한 시사점 제시.
-
#19WonderFlow: 내레이션 중심 애니메이션 데이터 비디오 설계내레이션을 차트 애니메이션에 연결하고 구조 인식 애니메이션 효과를 제공하여 애니메이션 데이터 비디오 제작을 간소화하는 인터랙티브 저작 도구입니다.
-
#20만화 영상 내레이션 생성: 과제 정의, 데이터셋 및 모델영상 자동 내레이션 생성 과제를 소개하고, 페파 피그 데이터셋을 제시하며, 타이밍 및 내용 생성 모델을 제안하는 연구 논문입니다.
-
#21비원어민 구어 단어 처리의 음성 모델: 분석 및 통찰비원어민 단어 처리에서 음성 지각의 역할을 탐구하는 계산 모델 분석. 전통적 음운론적 설명에 도전.
-
#22음성 단어의 음운 및 의미 임베딩과 음성 콘텐츠 검색 응용음운 및 의미 정보를 모두 포함하는 음성 단어 임베딩을 위한 2단계 프레임워크로, 단순 용어 매칭을 넘어선 고급 음성 문서 검색을 가능하게 합니다.
-
#23오디오북 운율 분석: 향상된 텍스트-음성 변환을 위한 NLP 모델NLP 및 언어 모델을 활용하여 서사 텍스트에서 운율 속성(음높이, 음량, 속도)을 예측하는 연구로, 오디오북 생성용 TTS 품질을 개선합니다.
-
#24대규모 언어 모델을 활용한 신뢰할 수 없는 화자 분류LLM을 사용한 신뢰할 수 없는 화자의 계산적 식별 연구, TUN A 데이터셋 및 내적-서사적, 상호-서사적, 텍스트 간 신뢰성 분류 체계 소개
-
#25오디오 내레이션을 활용한 약한 감독 기반 동작 탐지노이즈가 있는 오디오 내레이션을 약한 감독 신호로 활용하여 동작 탐지 모델을 훈련시키는 방법을 탐구한 연구 논문으로, 다중 모달 비디오 특징을 활용하면서 주석 비용을 줄입니다.
-
#26MultiActor-Audiobook: 다중 화자를 활용한 제로샷 오디오북 생성멀티모달 화자 페르소나와 LLM 기반 스크립트 지침을 활용한 표현력 있는 오디오북 생성 제로샷 접근법으로, 고비용 학습과 수동 주석 작업을 제거합니다.
-
#27MultiActor-Audiobook: 얼굴과 목소리를 활용한 제로샷 오디오북 생성멀티모달 화자 페르소나와 LLM 기반 스크립트 지시를 사용하여 표현력 있는 오디오북을 생성하는 새로운 제로샷 시스템인 MultiActor-Audiobook에 대한 기술 분석.
마지막 업데이트: 2026-02-25 12:01:15