View a markdown version of this page

음성 및 음성 에이전트 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

음성 및 음성 에이전트

음성 및 음성 에이전트는 음성 대화를 통해 사용자와 상호 작용합니다. 이러한 에이전트는 음성 인식, 자연어 이해 및 음성 합성을 통합하여 텔레포니, 모바일, 웹 및 임베디드 플랫폼에서 대화형 AI를 지원합니다.

음성 에이전트는 핸즈프리, 실시간 또는 접근성 기반 환경에서 특히 효과적입니다. 스트리밍 인터페이스와 LLM 기반 추론을 결합하면 사용자에게 자연스럽게 느껴지는 풍부하고 동적인 상호 작용을 촉진할 수 있습니다.

아키텍처

음성 및 음성 에이전트는 다음 다이어그램에 나와 있습니다.

음성 및 음성 에이전트.

설명

  1. 음성 쿼리를 수신합니다.

    • 사용자가 전화, 마이크 또는 임베디드 시스템에 대한 요청을 음성으로 보냅니다.

    • speech-to-text(STT) 모듈은 오디오를 텍스트로 변환합니다.

  2. 스트리밍 및 텔레포니 컨텍스트 통합

    • 에이전트는 스트리밍 인터페이스를 사용하여 오디오 I/O를 실시간으로 관리합니다.

    • 고객 센터 또는 통신 컨텍스트에 배포된 경우 텔레포니 통합은 세션 라우팅, 듀얼 톤 다중 주파수(DTMF) 입력 및 미디어 전송을 처리합니다.

참고: DTMF는 전화 키패드에서 버튼을 누를 때 생성되는 톤을 나타냅니다. 음성 에이전트 내 스트리밍 및 텔레포니 컨텍스트 통합의 맥락에서 DTMF는 전화 통화 중, 특히 대화형 음성 응답(IVR) 시스템에서 신호 입력 메커니즘으로 사용됩니다. DTMF 입력을 통해 에이전트는 다음을 수행할 수 있습니다.

  • 메뉴 선택 항목을 인식합니다(예: "결제하려면 1을 누릅니다. 지원하려면 2를 누릅니다.")

  • 숫자 입력 수집(예: 계정 번호, PINs 및 확인 번호)

  • 통화 흐름에서 워크플로 또는 상태 전환 트리거

  • 필요한 경우 음성에서 터치 톤으로 되돌리기

  1. LLM 스트림 컨텍스트를 통한 이유

    • 쿼리는 에이전트로 전송되어 세션 메타데이터(예: 호출자 ID, 이전 컨텍스트)와 함께 에이전트를 LLM으로 전달합니다.

    • LLM은 상호 작용이 진행 중인 경우 chain-of-thought 전략을 사용하거나 멀티턴 메모리를 사용하여 응답을 생성합니다.

  2. 음성 응답을 반환합니다.

    • 에이전트는 text-to-speech(텍스트 음성 변환)를 사용하여 응답을 음성으로 변환합니다.

    • 음성 채널을 통해 사용자에게 오디오를 반환합니다.

기능

  • 실시간 음성 이해 및 생성

  • STT 및 TTS를 지원하는 다국어 I/O

  • 텔레포니 또는 스트리밍 APIs와 통합

  • 전환 간 세션 인식 및 메모리 핸드오프

일반 사용 사례

  • 대화형 IVR 시스템

  • 가상 리셉셔니스트 및 약속 스케줄러

  • 음성 기반 헬프데스크 에이전트

  • 웨어러블 보이스 어시스턴트

  • 스마트 홈 및 접근성 도구를 위한 음성 인터페이스

구현 지침

다음 도구 및를 사용하여이 패턴을 빌드할 수 있습니다 AWS 서비스.

  • STT용 Amazon Lex V2 또는 Amazon Transcribe

  • TTS용 Amazon Polly

  • 스트리밍 및 텔레포니를 위한 Amazon Chime SDK, Amazon Connect 또는 Amazon Interactive Video Service(Amazon IVS)

  • Anthropic, AI21 또는 기타 파운데이션 모델을 사용한 추론을 위한 Amazon Bedrock

  • AWS Lambda STT, LLM, TTS 및 세션 컨텍스트를 연결하는 방법

(선택 사항) 추가 개선 사항에는 다음이 포함될 수 있습니다.

  • 컨텍스트 인식 RAG용 Amazon Kendra 또는 OpenSearch

  • 세션 메모리용 Amazon DynamoDB

  • 추적성을 AWS X-Ray 위한 Amazon CloudWatch Logs 및

요약

음성 및 음성 에이전트는 자연스러운 대화를 통해 상호 작용하는 지능형 시스템입니다. 음성 인터페이스를 LLM 추론 및 실시간 스트리밍 인프라와 통합하여 음성 에이전트는 원활하고 액세스 가능하며 확장 가능한 상호 작용을 가능하게 합니다.