-
#1인간 배우와 AI 내레이터의 협업 스토리텔링: 이벤트 리포트 분석라이브 즉흥극에서 GPT-3를 공동 내레이터로 활용한 분석. 방법론, 관객/배우 피드백, 인간-AI 창작 협업에 대한 함의를 다룹니다.
-
#2자연어 질의를 활용한 크로스 모달 오디오 검색자유 형식 자연어 질의를 사용한 오디오 검색 연구로, 크로스 모달 오디오 검색을 위한 새로운 벤치마크와 기준 모델을 제시합니다.
-
#3AudioBoost: LLM 생성 합성 쿼리를 통한 Spotify 검색 내 오디오북 발견 강화스포티파이의 콜드 스타트 시나리오에서 오디오북 메타데이터로 LLM을 활용해 합성 쿼리를 생성하여 검색 및 쿼리 제안을 개선하는 AudioBoost 시스템 분석.
-
#4Audiobook-CC: 제어 가능한 장문 컨텍스트 멀티캐스트 오디오북 생성 프레임워크Audiobook-CC를 분석합니다. 이는 세밀한 제어와 장문 컨텍스트 모델링을 통해 일관되고 감정 표현이 풍부한 멀티캐스트 오디오북을 생성하는 새로운 음성 합성 프레임워크입니다.
-
#5Audiobook-CC: 세밀한 제어가 가능한 장문 멀티캐스트 오디오북 생성 프레임워크Audiobook-CC를 분석합니다. 이는 일관성 있고 감정 표현이 풍부하며 문맥적으로 일관된 멀티캐스트 오디오북을 세밀하게 제어하며 생성하는 새로운 TTS 프레임워크입니다.
-
#6Spotify의 그래프 신경망을 활용한 개인 맞춤형 오디오북 추천 시스템Spotify의 혁신적인 2T-HGNN 시스템: 이종 그래프 신경망과 투 타워 모델을 결합하여 확장 가능한 오디오북 추천을 구현, 시작률 46% 증가 달성
-
#7MAMLCon: 지속적 소량 샘플 음성 단어 분류를 위한 메타 학습음성 단어 분류를 위한 지속적 소량 샘플 학습에서 파국적 망각을 완화하는 새로운 메타 학습 접근법(MAMLCon)을 제안하며, OML과 같은 기존 방법을 능가합니다.
-
#8EFL 듣기 이해력 향상을 위한 모바일 오디오북: 대학생을 위한 프레임워크EFL 대학생의 듣기 이해력 개발을 위한 모바일 오디오북 통합 분석. 장점, 선정 기준, 교수 단계, 평가 방법을 다룹니다.
-
#9Movie101v2: 향상된 자동 영화 내레이션 생성을 위한 벤치마크대규모 이중언어 영화 내레이션 데이터셋인 Movie101v2 분석. 3단계 작업 로드맵, 베이스라인 평가 및 향후 연구 방향을 포함합니다.
-
#10음악과 가사가 구어 단어 인식에 미치는 영향: 분석 및 시사점배경 음악(가사 유무 포함)이 구어 단어 인식에 미치는 영향을 조사한 연구 분석. 사회적 환경 및 향후 연구에 대한 시사점 제시.
-
#11WonderFlow: 내레이션 중심 애니메이션 데이터 비디오 설계내레이션을 차트 애니메이션에 연결하고 구조 인식 애니메이션 효과를 제공하여 애니메이션 데이터 비디오 제작을 간소화하는 인터랙티브 저작 도구입니다.
-
#12만화 영상 내레이션 생성: 과제 정의, 데이터셋 및 모델본 논문은 영상 내레이션 생성이라는 새로운 과제를 소개하고, 페파 피그 데이터셋을 제시하며, 타이밍 및 내용 생성 모델을 제안합니다.
-
#13비원어민 구어 단어 처리의 음성 모델: 분석 및 통찰비원어민 단어 처리에서 음성 지각의 역할을 탐구하는 계산 모델 분석. 전통적 음운론적 설명에 도전.
-
#14음성 단어의 음운 및 의미 임베딩과 음성 콘텐츠 검색 응용음운 및 의미 정보를 모두 포함하는 음성 단어 임베딩을 위한 2단계 프레임워크로, 단순 용어 매칭을 넘어선 고급 음성 문서 검색을 가능하게 합니다.
-
#15오디오북 운율 분석: 향상된 텍스트-음성 변환을 위한 NLP 모델NLP 및 언어 모델을 활용하여 서사 텍스트에서 운율 속성(음높이, 음량, 속도)을 예측하는 연구로, 오디오북 생성용 TTS 품질을 개선합니다.
-
#16대규모 언어 모델을 활용한 신뢰할 수 없는 화자 분류LLM을 사용한 신뢰할 수 없는 화자의 계산적 식별 연구, TUN A 데이터셋 및 내적-서사적, 상호-서사적, 텍스트 간 신뢰성 분류 체계 소개
-
#17오디오 내레이션을 활용한 약한 감독 기반 동작 탐지노이즈가 있는 오디오 내레이션을 약한 감독 신호로 활용하여 비디오 동작 탐지 모델을 학습하는 방법을 탐구한 연구 논문. 다중 모달 특징을 활용하면서 주석 비용을 줄입니다.
-
#18MultiActor-Audiobook: 다중 화자를 활용한 제로샷 오디오북 생성멀티모달 화자 페르소나와 LLM 기반 스크립트 지침을 활용한 표현력 있는 오디오북 생성 제로샷 접근법으로, 고비용 학습과 수동 주석 작업을 제거합니다.
-
#19MultiActor-Audiobook: 얼굴과 목소리를 활용한 제로샷 오디오북 생성멀티모달 화자 페르소나와 LLM 기반 스크립트 지시를 사용하여 표현력 있는 오디오북을 생성하는 새로운 제로샷 시스템인 MultiActor-Audiobook에 대한 기술 분석.
마지막 업데이트: 2026-01-12 05:31:34