양방향 스트리밍으로 스피치 합성

Amazon Polly는 애플리케이션과 서비스 간의 양방향 통신으로 HTTP/2 연결을 설정하는 StartSpeechSynthesisStream 작업을 제공합니다. 합성된 오디오가 다시 흐르는 동안 애플리케이션에서 Amazon Polly로 텍스트 흐름이 이루어집니다. 텍스트를 사용할 수 있게 되면 전송하고, Amazon Polly는 다른 쪽이 완료될 때까지 기다리지 않고 합성할 때 오디오를 반환합니다.

이는 텍스트가 한 번에 전부가 아닌 점진적으로 생성될 때 유용합니다. 예를 들어 Amazon Bedrock의 파운데이션 모델로 구동되는 고객 서비스 챗봇은 토큰으로 응답 토큰을 생성합니다. 양방향 스트리밍을 사용하면 모델이 텍스트를 생성할 때 애플리케이션이 각 텍스트 청크를 Amazon Polly에 전달하고 모델이 나머지 응답을 생성하는 동안 호출자에게 오디오를 재생하기 시작할 수 있습니다.

이 작업을 수행하려면 HTTP/2 이벤트 스트림을 지원하는 생성형 엔진과 AWS SDK가 필요합니다. 오디오는 애플리케이션이 전체 오디오 출력에 누적되는 청크 시퀀스로 도착합니다. 이 작업에서는 스피치 마크가 지원되지 않습니다.

참고

AWS CLI (v1 및 v2), AWS Tools for PowerShell(v4 및 v5), Python 및 .NET v3는 지원되지 않습니다. 양방향 스트리밍 API를 다음 SDKs와 함께 사용할 수 있습니다. AWS SDK for Java 2.x, JavaScript v3, .NET v4, C++, Go v2, Kotlin, PHP v3, Ruby v3, Rust 및 Swift.

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

스피치 합성 예제

SynthesizeSpeech와 StartSpeechSynthesisStream 비교