Amazon Nova Sonic 스피치 투 스피치 모델 사용 - Amazon Nova

Amazon Nova Sonic 스피치 투 스피치 모델 사용

Amazon Nova Sonic 모델은 양방향 오디오 스트리밍을 통해 실시간 대화형 상호 작용을 제공합니다. Amazon Nova Sonic은 스피치가 발생하면 실시간으로 처리하고 응답하여 사람과 같은 자연스러운 대화 경험을 제공합니다.

Amazon Nova Sonic은 통합 스피치 이해 및 생성 아키텍처를 통해 대화형 AI에 대한 혁신적인 접근 방식을 제공합니다. 업계 최고의 가격 대비 성능을 자랑하는 이 최첨단 파운데이션 모델을 통해 기업은 자연스럽고 상황에 맞는 음성 경험을 구축할 수 있습니다.

주요 기능 및 특성

  • 지연 시간이 짧은 실시간 멀티턴 대화를 지원하는 양방향 스트림 API 기능을 갖춘 최첨단 스트리밍 스피치 이해

  • 지원되는 모든 언어에서 맥락에 맞는 풍부한 정보가 제공되는 자연스럽고 사람과 같은 대화형 AI 경험

  • 입력된 스피치의 운율에 따라 동적으로 전달을 조정하는 적응형 스피치 응답

  • 대화의 맥락을 잃지 않고 자연스럽게 사용자 중단 처리

  • 검색 증강 생성(RAG)을 사용하여 엔터프라이즈 데이터로 지식 근거 마련

  • 복잡한 AI 애플리케이션 구축을 위한 함수 직접 호출 및 에이전트 워크플로 지원

  • 실제 배포 시나리오에서 배경 소음에 대한 강건성

  • 지원되는 모든 언어에서 다양한 말하기 스타일 인식

Amazon Nova Sonic 아키텍처

Amazon Nova Sonic은 양방향 스트림 API를 통해 이벤트 기반 아키텍처를 구현하여 실시간 대화 경험을 지원합니다. 다음은 API의 주요 아키텍처 구성 요소입니다.

  1. 양방향 이벤트 스트리밍: Amazon Nova Sonic은 양방향으로 동시 이벤트 스트리밍이 가능한 영구 양방향 연결을 사용합니다. 기존의 요청-응답 패턴과 달리 이 접근 방식은 다음을 허용합니다.

    • 사용자에서 모델로의 지속적 오디오 스트리밍

    • 동시 스피치 처리 및 생성

    • 완전한 발화를 기다리지 않고 실시간 모델 응답

  2. 이벤트 기반 통신 흐름: 전체 상호 작용은 다음과 같은 이벤트 기반 프로토콜을 따릅니다.

    • 클라이언트와 모델이 구조화된 JSON 이벤트 교환

    • 이벤트가 세션 수명 주기, 오디오 스트리밍, 텍스트 응답 및 도구 상호 작용 제어

    • 각 이벤트가 대화 흐름에서 특정 역할 수행

다음은 양방향 스트림 API의 세 가지 주요 구성 요소입니다.

  1. 세션 초기화: 클라이언트가 양방향 스트림을 설정하고 구성 이벤트를 전송합니다.

  2. 오디오 스트리밍: 사용자 오디오가 지속적으로 캡처 및 인코딩되고 모델에 이벤트로 스트리밍되어 스피치를 지속적으로 처리합니다.

  3. 응답 스트리밍: 오디오가 도착하면 모델이 동시에 이벤트 응답을 전송합니다.

    • 사용자 스피치의 텍스트 트랜스크립션(ASR)

    • 함수 직접 호출을 위한 도구 사용 이벤트

    • 모델의 텍스트 응답

    • 음성 출력을 위한 오디오 청크

다음 다이어그램은 양방향 스트림 API에 대한 개괄적 개요를 제공합니다.

Amazon Nova Sonic 양방향 스트리밍 시스템을 설명하는 다이어그램입니다.