

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# SynthesizeSpeech와 StartSpeechSynthesisStream 비교
<a name="bidirectional-streaming-choosing"></a>

**[SynthesizeSpeech](https://docs.aws.amazon.com/polly/latest/dg/API_SynthesizeSpeech.html)**는 요청-응답 작업입니다. 단일 요청으로 전체 텍스트를 제공하고 단일 응답으로 전체 합성 오디오를 수신합니다. 모든 엔진(표준, 신경, 롱폼, 생성형), 스피치 마크를 포함한 모든 출력 형식을 지원하며 요청당 총 6,000자(이 중 3,000자를 초과할 수 없음)의 텍스트 제한이 있습니다. 응답은 첫 번째 바이트를 사용할 수 있게 되는 즉시 오디오를 다시 스트리밍합니다. 모든 텍스트를 미리 사용할 수 있는 경우이 작업을 사용합니다.

**[StartSpeechSynthesisStream](https://docs.aws.amazon.com/polly/latest/dg/API_StartSpeechSynthesisStream.html)**은 양방향 스트리밍 작업입니다. 텍스트가 합성될 때 증분적으로 전송하고 오디오를 수신하는 HTTP/2 연결을 엽니다. 텍스트는 지속적으로 스트리밍되므로 요청당 텍스트 제한은 없습니다. 생성형 엔진이 필요하며 스피치 마크를 지원하지 않습니다. 텍스트가 점진적으로 도착하고 모든 입력을 사용할 수 있기 전에 오디오 출력을 시작하려는 경우이 작업을 사용합니다. 일반적인 시나리오는 다음과 같습니다.
+ **대화형 AI 및 음성 어시스턴트**. 대규모 언어 모델은 작은 청크(토큰)로 응답 텍스트를 생성합니다. 모델이 아직 생성되는 동안 사용자가 음성을 들을 수 있도록 각 텍스트 청크가 도착하면 Amazon Polly에 전달합니다.
+ **실시간 번역**. 번역 시스템은 번역된 텍스트 세그먼트를 세그먼트별로 생성합니다. 전체 번역이 완료될 때까지 기다리지 않고 합성을 위해 각 세그먼트를 스트리밍합니다.
+ **SynthesizeSpeech 제한을 초과하는 롱폼 콘텐츠**입니다. 6,000자보다 긴 텍스트는 여러 요청으로 분할하거나 청크 경계를 관리하지 않고도 지속적으로 스트리밍할 수 있습니다.


**SynthesizeSpeech와 StartSpeechSynthesisStream 비교**  

| 속성 | SynthesizeSpeech | StartSpeechSynthesisStream | 
| --- | --- | --- | 
| 프로토콜 | 요청-응답 | 양방향 이벤트 스트림(HTTP/2) | 
| 텍스트 전송 | 요청 본문의 전체 텍스트 | TextEvent 메시지를 통해 입력 텍스트 스트리밍 | 
| 오디오 전송 | HTTP 응답 본문을 통한 오디오 응답 스트리밍 | AudioEvent 메시지를 통한 오디오 응답 스트리밍 | 
| 엔진 지원 | 표준, 신경, 롱폼, 생성형 | 생성형 전용 | 
| SSML 지원 | 예(모든 엔진, [지원되는 태그는 엔진마다 다름](https://docs.aws.amazon.com/polly/latest/dg/supportedtags.html)) | 예([생성 엔진 태그만 해당](https://docs.aws.amazon.com/polly/latest/dg/supportedtags.html)) | 
| 어휘 | 예 | 예 | 
| 스피치 마크 | 예 | 아니요 | 
| 텍스트 제한 | 요청당 총 6,000자(3,000자 청구) | TextEvent당 총 6,000자(3,000자 청구) | 
| AWS CLI 지원 | 예 | 아니요(양방향 스트리밍에는 SDK 필요) | 