음성 및 음성 에이전트

음성 및 음성 에이전트는 음성 대화를 통해 사용자와 상호 작용합니다. 이러한 에이전트는 음성 인식, 자연어 이해 및 음성 합성을 통합하여 텔레포니, 모바일, 웹 및 임베디드 플랫폼에서 대화형 AI를 지원합니다.

음성 에이전트는 핸즈프리, 실시간 또는 접근성 기반 환경에서 특히 효과적입니다. 스트리밍 인터페이스와 LLM 기반 추론을 결합하면 사용자에게 자연스럽게 느껴지는 풍부하고 동적인 상호 작용을 촉진할 수 있습니다.

아키텍처

음성 및 음성 에이전트는 다음 다이어그램에 나와 있습니다.

설명

음성 쿼리를 수신합니다.
- 사용자가 전화, 마이크 또는 임베디드 시스템에 대한 요청을 음성으로 보냅니다.
- speech-to-text(STT) 모듈은 오디오를 텍스트로 변환합니다.
스트리밍 및 텔레포니 컨텍스트 통합
- 에이전트는 스트리밍 인터페이스를 사용하여 오디오 I/O를 실시간으로 관리합니다.
- 고객 센터 또는 통신 컨텍스트에 배포된 경우 텔레포니 통합은 세션 라우팅, 듀얼 톤 다중 주파수(DTMF) 입력 및 미디어 전송을 처리합니다.

참고: DTMF는 전화 키패드에서 버튼을 누를 때 생성되는 톤을 나타냅니다. 음성 에이전트 내 스트리밍 및 텔레포니 컨텍스트 통합의 맥락에서 DTMF는 전화 통화 중, 특히 대화형 음성 응답(IVR) 시스템에서 신호 입력 메커니즘으로 사용됩니다. DTMF 입력을 통해 에이전트는 다음을 수행할 수 있습니다.

메뉴 선택 항목을 인식합니다(예: "결제하려면 1을 누릅니다. 지원하려면 2를 누릅니다.")
숫자 입력 수집(예: 계정 번호, PINs 및 확인 번호)
통화 흐름에서 워크플로 또는 상태 전환 트리거
필요한 경우 음성에서 터치 톤으로 되돌리기

LLM 스트림 컨텍스트를 통한 이유
- 쿼리는 에이전트로 전송되어 세션 메타데이터(예: 호출자 ID, 이전 컨텍스트)와 함께 에이전트를 LLM으로 전달합니다.
- LLM은 상호 작용이 진행 중인 경우 chain-of-thought 전략을 사용하거나 멀티턴 메모리를 사용하여 응답을 생성합니다.
음성 응답을 반환합니다.
- 에이전트는 text-to-speech(텍스트 음성 변환)를 사용하여 응답을 음성으로 변환합니다.
- 음성 채널을 통해 사용자에게 오디오를 반환합니다.

기능

실시간 음성 이해 및 생성
STT 및 TTS를 지원하는 다국어 I/O
텔레포니 또는 스트리밍 APIs와 통합
전환 간 세션 인식 및 메모리 핸드오프

일반 사용 사례

대화형 IVR 시스템
가상 리셉셔니스트 및 약속 스케줄러
음성 기반 헬프데스크 에이전트
웨어러블 보이스 어시스턴트
스마트 홈 및 접근성 도구를 위한 음성 인터페이스

구현 지침

다음 도구 및를 사용하여이 패턴을 빌드할 수 있습니다 AWS 서비스.

STT용 Amazon Lex V2 또는 Amazon Transcribe
TTS용 Amazon Polly
스트리밍 및 텔레포니를 위한 Amazon Chime SDK, Amazon Connect 또는 Amazon Interactive Video Service(Amazon IVS)
Anthropic, AI21 또는 기타 파운데이션 모델을 사용한 추론을 위한 Amazon Bedrock
AWS Lambda STT, LLM, TTS 및 세션 컨텍스트를 연결하는 방법

(선택 사항) 추가 개선 사항에는 다음이 포함될 수 있습니다.

컨텍스트 인식 RAG용 Amazon Kendra 또는 OpenSearch
세션 메모리용 Amazon DynamoDB
추적성을 AWS X-Ray 위한 Amazon CloudWatch Logs 및

요약

음성 및 음성 에이전트는 자연스러운 대화를 통해 상호 작용하는 지능형 시스템입니다. 음성 인터페이스를 LLM 추론 및 실시간 스트리밍 인프라와 통합하여 음성 에이전트는 원활하고 액세스 가능하며 확장 가능한 상호 작용을 가능하게 합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

코딩 에이전트

워크플로 오케스트레이션 에이전트