View a markdown version of this page

SynthesizeSpeech와 StartSpeechSynthesisStream 비교 - Amazon Polly

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SynthesizeSpeech와 StartSpeechSynthesisStream 비교

SynthesizeSpeech는 요청-응답 작업입니다. 단일 요청으로 전체 텍스트를 제공하고 단일 응답으로 전체 합성 오디오를 수신합니다. 모든 엔진(표준, 신경, 롱폼, 생성형), 스피치 마크를 포함한 모든 출력 형식을 지원하며 요청당 총 6,000자(이 중 3,000자를 초과할 수 없음)의 텍스트 제한이 있습니다. 응답은 첫 번째 바이트를 사용할 수 있게 되는 즉시 오디오를 다시 스트리밍합니다. 모든 텍스트를 미리 사용할 수 있는 경우이 작업을 사용합니다.

StartSpeechSynthesisStream은 양방향 스트리밍 작업입니다. 텍스트가 합성될 때 증분적으로 전송하고 오디오를 수신하는 HTTP/2 연결을 엽니다. 텍스트는 지속적으로 스트리밍되므로 요청당 텍스트 제한은 없습니다. 생성형 엔진이 필요하며 스피치 마크를 지원하지 않습니다. 텍스트가 점진적으로 도착하고 모든 입력을 사용할 수 있기 전에 오디오 출력을 시작하려는 경우이 작업을 사용합니다. 일반적인 시나리오는 다음과 같습니다.

  • 대화형 AI 및 음성 어시스턴트. 대규모 언어 모델은 작은 청크(토큰)로 응답 텍스트를 생성합니다. 모델이 아직 생성되는 동안 사용자가 음성을 들을 수 있도록 각 텍스트 청크가 도착하면 Amazon Polly에 전달합니다.

  • 실시간 번역. 번역 시스템은 번역된 텍스트 세그먼트를 세그먼트별로 생성합니다. 전체 번역이 완료될 때까지 기다리지 않고 합성을 위해 각 세그먼트를 스트리밍합니다.

  • SynthesizeSpeech 제한을 초과하는 롱폼 콘텐츠입니다. 6,000자보다 긴 텍스트는 여러 요청으로 분할하거나 청크 경계를 관리하지 않고도 지속적으로 스트리밍할 수 있습니다.

SynthesizeSpeech와 StartSpeechSynthesisStream 비교
속성 SynthesizeSpeech StartSpeechSynthesisStream

프로토콜

요청-응답

양방향 이벤트 스트림(HTTP/2)

텍스트 전송

요청 본문의 전체 텍스트

TextEvent 메시지를 통해 입력 텍스트 스트리밍

오디오 전송

HTTP 응답 본문을 통한 오디오 응답 스트리밍

AudioEvent 메시지를 통한 오디오 응답 스트리밍

엔진 지원

표준, 신경, 롱폼, 생성형

생성형 전용

SSML 지원

예(모든 엔진, 지원되는 태그는 엔진마다 다름)

예(생성 엔진 태그만 해당)

어휘

스피치 마크

아니요

텍스트 제한

요청당 총 6,000자(3,000자 청구)

TextEvent당 총 6,000자(3,000자 청구)

AWS CLI 지원

아니요(양방향 스트리밍에는 SDK 필요)