AudioBoost: LLM 생성 합성 쿼리를 통한 Spotify 검색 내 오디오북 발견 강화

1. 서론 및 문제 정의

스포티파이가 오디오북 시장으로 확장하면서 전형적인 콜드 스타트 문제가 발생했습니다. 수년간 음악과 팟캐스트 상호작용에 최적화된 플랫폼의 검색 및 추천 시스템은 새로운 콘텐츠 유형에 대해 심각한 검색 가능성 편향을 겪었습니다. 사용자들은 오디오북을 검색하는 데 익숙하지 않았고, 시스템은 기존 콘텐츠 대비 정확한 순위를 매기기에 충분한 상호작용 데이터가 부족했습니다. 이는 악순환을 초래했습니다: 낮은 노출도는 적은 상호작용으로 이어졌고, 이는 다시 낮은 순위를 고착시켰습니다. 핵심 과제는 두 가지였습니다: 1) 사용자가 특정 제목 대신 "스칸디나비아를 배경으로 한 심리 스릴러"와 같은 탐색적이고 주제 기반의 오디오북 쿼리를 입력하도록 영감을 주는 것, 2) 실제 사용자 데이터가 거의 존재하지 않는 이러한 광범위한 탐색적 쿼리를 효과적으로 처리하도록 검색 시스템을 보강하는 것이었습니다.

2. AudioBoost 시스템

AudioBoost는 스포티파이가 이 콜드 스타트 문제에 맞서 설계한 대응책입니다. 이는 단순한 순위 조정이 아닌, 합성 데이터를 활용하여 발견 과정을 부트스트랩하는 시스템적 개입입니다.

2.1 핵심 방법론

이 시스템은 각 오디오북과 연관된 풍부하고 구조화된 메타데이터(제목, 저자, 출판사, 장르, 시놉시스, 트로피)를 활용합니다. 이 메타데이터가 생성의 시드(seed) 역할을 합니다.

2.2 LLM을 활용한 합성 쿼리 생성

대규모 언어 모델(LLM)은 이 메타데이터를 조건으로 하여 여러 개의 그럴듯한 사용자 검색 쿼리를 생성하도록 프롬프트됩니다. 예를 들어, AI에 관한 공상과학 오디오북의 메타데이터가 주어지면, LLM은 다음과 같은 쿼리를 생성할 수 있습니다: "최고의 AI 디스토피아 소설", "의식에 관한 공상과학 책", "기술에 관한 미래형 이야기". 이 과정은 시간이 지나면 자연스럽게 발전할 검색 트래픽의 "롱테일"을 인위적으로 생성합니다.

2.3 이중 인덱싱 전략

AudioBoost의 장점은 이중 적용에 있습니다:

쿼리 자동완성 (QAC): 합성 쿼리가 제안 사항으로 주입되어, 탐색적 검색 아이디어를 심어줌으로써 사용자 행동에 직접 영향을 미칩니다.
검색 검색 엔진: 동일한 합성 쿼리가 오디오북에 대해 인덱싱되어, 유사한 실제 사용자 쿼리에 대한 매치 점수를 향상시켜 검색 가능성을 높입니다.

이는 긍정적인 피드백 루프를 생성합니다: 더 나은 제안은 더 많은 탐색적 쿼리로 이어지고, 이 쿼리는 검색 시스템에 의해 더 잘 처리됩니다.

핵심 결과 요약

오디오북 노출: +0.7%
오디오북 클릭: +1.22%
탐색적 쿼리 자동완성 사용: +1.82%

출처: 온라인 A/B 테스트, AudioBoost 시스템

3. 기술 구현 및 평가

3.1 오프라인 평가 지표

라이브 테스트 전에, 합성 쿼리의 품질과 유용성은 오프라인에서 평가되었습니다. 평가 지표에는 다음과 같은 것들이 포함되었을 것입니다:

쿼리 관련성: 생성된 쿼리가 관련 오디오북에 대한 그럴듯한 검색어인지에 대한 인간 또는 모델 기반 평가.
검색 가능성 커버리지: 합성 데이터 인덱싱 후, 테스트 쿼리 묶음에 대한 상위 K개 검색 결과에 나타나는 오디오북 수의 증가 측정.
다양성 및 신규성: 생성된 쿼리가 명백한 제목/저자 매치를 넘어서는 광범위한 검색 의도(주제, 장르, 트로피, 분위기)를 포괄하도록 보장.

논문은 합성 쿼리가 "고품질"이며 이 오프라인 환경에서 검색 가능성을 증가시켰음을 보여줍니다.

3.2 온라인 A/B 테스트 결과

궁극적인 검증은 통제된 온라인 A/B 테스트였습니다. 실험군은 AudioBoost가 활성화된 검색을 경험했습니다. 결과는 통계적으로 유의미했으며 운영적으로 의미 있었습니다:

+0.7% 오디오북 노출: 더 많은 오디오북이 검색 결과에 노출되었습니다.
+1.22% 오디오북 클릭: 사용자들이 이러한 오디오북 결과와 더 많이 상호작용했습니다.
+1.82% 탐색적 쿼리 자동완성 사용: 결정적으로, 사용자들이 시스템이 제안한 탐색적 쿼리를 더 높은 비율로 채택하여 행동 유도가 효과적이었음을 입증했습니다.

이러한 지표들은 AudioBoost가 콜드 스타트 사이클을 성공적으로 깼음을 확인시켜 줍니다.

3.3 핵심 성과 지표 (KPIs)

선택된 KPIs는 비즈니스 및 제품 목표와 전문적으로 조율되었습니다: 발견 (노출), 참여 (클릭), 그리고 쿼리 행동 변화 (탐색적 자동완성 사용).

4. 핵심 통찰 및 분석가 관점

핵심 통찰: 스포티파이의 AudioBoost는 응용 AI 실용주의의 모범 사례입니다. 이는 콜드 스타트 문제를 데이터의 부족이 아닌 신호의 부족으로 재정의합니다. 사용자가 그 신호를 유기적으로 생성하도록 기다리는 대신(새로운 카탈로그에는 불리한 접근), LLM을 사용하여 대규모로 사용자 의도를 시뮬레이션함으로써 시장을 효과적으로 부트스트랩합니다. 이는 생성형 AI가 인간 언어의 뉘앙스를 이해하고 모방하는 능력으로 강화된, 전통적인 콘텐츠 기반 필터링의 더 정교한 진화입니다.

논리적 흐름: 시스템의 논리는 우아하게 순환적이고 자기 강화적입니다. 메타데이터 → 합성 쿼리 → 향상된 QAC 및 검색 → 사용자 참여 → 실제 데이터 → 향상된 모델. 이는 스포티파이와 같은 플랫폼이 의존하는 네트워크 효과에 대한 설계된 지름길입니다. 이 접근법은 짝지어진 예시 없이 도메인 간(예: 말에서 얼룩말로) 변환하는 방법을 학습하는 CycleGAN(Zhu 외, 2017)과 같은 컴퓨터 비전 기법을 떠올리게 합니다. 마찬가지로, AudioBoost는 초기에 짝지어진 (쿼리, 오디오북) 상호작용 데이터에 의존하지 않고, 오디오북 메타데이터 도메인과 사용자 검색 의도 도메인 사이를 "번역"하는 방법을 학습합니다.

강점과 결점: 주요 강점은 긍정적인 A/B 테스트 결과가 보여주듯 즉각적인 배포 가능성과 영향력입니다. 이는 기존 인프라(QAC, 검색 인덱스) 내에서 작동하는 저위험, 고수익 개입입니다. 그러나 이 접근법에는 본질적인 결점이 있습니다. 첫째, "합성의 에코 챔버"를 생성할 위험이 있습니다. LLM의 쿼리 생성이 편향되거나 제한적이라면, 발견의 지평을 넓히기보다는 좁힐 수 있습니다. 둘째, 단기적으로 검색을 진정한 사용자 관심사와 분리시킬 가능성이 있습니다. 실제 사용자가 관심 없는 합성 쿼리에 대해 책이 검색될 수 있습니다. 셋째, 스탠퍼드 HAI와 같은 연구 기관의 연구에서 지적했듯이, 실제 데이터 피드백 루프로 신중하게 관리하지 않으면 합성 데이터에 대한 과도한 의존은 모델 붕괴나 예상치 못한 편향을 초래할 수 있습니다.

실행 가능한 통찰: 제품 리더들에게 명확한 교훈은 다음과 같습니다: 생성형 AI는 궁극적인 콜드 스타트 무기입니다. 청사진은 도메인 전반에 걸쳐 복제 가능합니다—새로운 제품 카테고리, 새로운 지리적 시장, 새로운 콘텐츠 형식. 핵심은 생성 과정의 품질과 다양성에 집중하는 것입니다. 프롬프트 엔지니어링, 합성 출력물의 큐레이션 및 검증을 1급 엔지니어링 작업으로 투자하십시오. 더 나아가, 시스템의 구식화를 계획하십시오. AudioBoost의 목표는 실제 데이터 수집을 가속화하여 합성 레이어가 점차적으로 단계적으로 폐지되거나 가중치가 줄어들고, 완전히 유기적인 발견 생태계로 전환될 수 있도록 하는 것이어야 합니다. 이는 영구적인 버팀목이 아닌 전략적 가속기입니다.

5. 기술적 세부사항 및 수학적 프레임워크

논문이 복잡한 공식에 깊이 들어가지는 않지만, 핵심 검색 강화는 개념화될 수 있습니다. $R(q, d)$를 원래 모델에서 쿼리 $q$에 대한 문서(오디오북) $d$의 관련성 점수라고 합시다. 콜드 스타트 상황에서, 오디오북 $d_a$와 탐색적 쿼리 $q_e$에 대해, 희소 데이터로 인해 $R(q_e, d_a)$는 낮습니다.

AudioBoost는 $d_a$에 대한 합성 쿼리 집합 $Q_s = \{q_{s1}, q_{s2}, ..., q_{sn}\}$을 생성합니다. 검색 시스템은 이러한 합성 쿼리에 대한 매치를 고려하는 새로운 관련성 점수 $R'(q, d)$를 갖도록 보강됩니다. 단순화된 관점은 다음과 같을 수 있습니다:

$R'(q_e, d_a) = R(q_e, d_a) + \lambda \cdot \sum_{q_s \in Q_s} \text{sim}(q_e, q_s) \cdot I(d_a, q_s)$

여기서:

$\text{sim}(q_e, q_s)$는 사용자의 탐색적 쿼리와 합성 쿼리 사이의 의미적 유사도 점수입니다(예: 임베딩 모델에서).
$I(d_a, q_s)$는 $d_a$와 $q_s$ 사이의 연관성 지표 또는 강도입니다(LLM 생성에 의해 확립됨).
$\lambda$는 합성 신호의 영향을 제어하는 혼합 매개변수로, 실제 데이터가 축적됨에 따라 감쇠해야 합니다.

이 프레임워크는 합성 쿼리가 어떻게 다리 역할을 하여, 사전 생성된 합성 쿼리들과의 의미적 유사성을 통해 $q_e$에 대한 $d_a$의 점수를 높이는지 보여줍니다.

6. 분석 프레임워크: 비코드 사례 연구

시나리오: 새로운 스트리밍 플랫폼 "StreamFlow"가 스탠드업 코미디 스페셜 카테고리를 론칭합니다. 이는 스포티파이의 오디오북과 동일한 콜드 스타트 문제에 직면합니다.

AudioBoost 프레임워크 적용:

메타데이터 식별: 각 코미디 스페셜에 대해: 코미디언 이름, 스페셜 제목, 태그(예: 관찰적, 정치적, 초현실적), 대본 키워드, 녹음 연도, 관객 분위기(떠들썩한, 친밀한).
쿼리 생성 프롬프트 정의: LLM 프롬프트를 설계합니다: "[코미디언]의 [제목] 코미디 스페셜이 [태그] 태그를 가지고 있을 때, 유사한 코미디 콘텐츠를 찾기 위해 사용자가 입력할 수 있는 10가지 다양한 검색 쿼리를 생성하세요. 스타일, 주제, 분위기, 비교 가능한 코미디언에 관한 쿼리를 포함하세요."
생성 및 인덱싱: "정치 풍자", "2020년대" 태그가 달린 스페셜에 대해, LLM은 다음과 같이 생성합니다: "재미있는 정치 논평", "현재 사건에 대한 최고의 풍자", "[코미디언] 같은 코미디언", "현대 사회에 관한 스탠드업". 이들이 인덱싱됩니다.
이중 적용: 사용자가 "코미디 about..." 입력을 시작할 때 이러한 쿼리가 제안으로 나타납니다. 또한 사용자가 "풍자적 뉴스 쇼"를 검색할 때 이 스페셜을 검색하는 데 도움이 됩니다.
측정 및 반복: KPIs 추적: 코미디 스페셜 노출, 재생 시작, 생성된 쿼리 제안 사용. 이 실제 데이터를 사용하여 LLM 프롬프트를 미세 조정하고, 오래된 스페셜들이 시청을 축적함에 따라 $\lambda$ 매개변수를 점차 줄입니다.

이 사례 연구는 핵심 개념이 오디오북을 넘어서 이식 가능함을 보여줍니다.

7. 향후 적용 및 연구 방향

AudioBoost 패러다임은 여러 가지 매력적인 미래 방향을 엽니다:

크로스 모달 및 멀티 모달 검색: 텍스트 쿼리를 넘어서 확장. 메타데이터에서 합성 오디오 스니펫(예: "이런 느낌의 것을 재생해줘")이나 시각적 무드 보드를 생성하여 음성 또는 시각 검색을 부트스트랩할 수 있을까요?
개인화된 합성 생성: 일률적인 합성 쿼리에서 개별 사용자 프로필을 조건으로 한 쿼리 생성으로 이동. 예를 들어, 역사 팟캐스트를 듣는 사용자에게는 일반적인 쿼리 대신 "심층 연구가 담긴 역사적 전기"와 같은 오디오북 쿼리를 생성합니다.
동적 및 적응형 합성: 정적 배치 생성 대신, 어떤 합성 쿼리가 실제로 사용자 참여로 이어지는지에 기반하여 합성 쿼리 생성 모델이 지속적으로 적응하는 시스템을 생성하여 자기 개선 루프를 만듭니다.
합성 편향 완화: 주요 연구 방향은 발견 과정에서 사회적 또는 카탈로그 편향의 증폭을 방지하기 위해 LLM 생성 쿼리의 다양성과 공정성을 감사하고 보장하는 방법을 개발하는 것입니다. 알고리즘 공정성 연구의 기법이 여기서 중요할 것입니다.
기업 검색 적용: 이 방법은 초기 사용자 검색 행동이 알려지지 않은 새로운 문서 저장소, 지식 베이스 또는 제품 카탈로그에 대한 내부 회사 검색 엔진에 직접 적용 가능합니다.

최전선은 합성 생성 과정을 더 동적이고, 개인화되며, 책임감 있게 만드는 데 있습니다.

8. 참고문헌

Azad, H. K., & Deepak, A. (2019). Query expansion techniques for information retrieval: A survey. Information Processing & Management, 56(5), 1698-1735.
Jiang, J. Y., et al. (2021). Understanding and predicting user search mindset. ACM Transactions on Information Systems.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). [외부 출처 - CycleGAN]
Stanford Institute for Human-Centered Artificial Intelligence (HAI). (2023). On the Risks and Challenges of Synthetic Data. [외부 출처 - 연구 기관]
Palumbo, E., Penha, G., Liu, A., et al. (2025). AudioBoost: Increasing Audiobook Retrievability in Spotify Search with Synthetic Query Generation. In Proceedings of the EARL Workshop@RecSys.
Bennett, P. N., et al. (2012). Modeling the impact of short- and long-term behavior on search personalization. In Proceedings of the 35th international ACM SIGIR conference.

목차