롱폼 음성

Amazon Polly에는 사람과 비슷하고 표현력이 뛰어나며 감정적으로 능숙한 음성을 생성하는 롱폼 엔진이 있습니다. 롱폼 음성은 뉴스 기사, 교육 자료 또는 마케팅 비디오와 같은 긴 콘텐츠에서 청취자의 관심을 끌도록 설계되었습니다.

Amazon Polly 롱폼 음성은 최첨단 딥 러닝 TTS 기술을 사용하여 개발되었습니다. 이 모델은 인간 언어의 음소, 운율, 억양 및 기타 음성 및 음향 측면을 따라하도록 학습하여 매우 자연스러운 음성 출력을 제공합니다.

롱폼 엔진은 텍스트 임베딩을 사용하여 텍스트의 의미를 해석합니다. 롱폼 엔진은 텍스트 임베딩을 사용하여 자연스러운 음성의 올바른 강조, 멈춤, 톤을 생성할 수 있습니다. 그 결과 인간의 의사소통에 존재하는 모든 감정적 요소를 결합한 음성이 탄생합니다. 여기에는 놀라움을 모방하거나 대화와 내레이션을 구분하는 것이 포함됩니다. 이 모든 것이 합쳐져 살아 있는 사람처럼 들리는 프리미엄 스피치 산물이 생성됩니다.

참고

이러한 음성의 기반이 되는 최첨단 기술은 언어 및 음성 모델링을 위한 생성형 AI 패러다임에 속합니다. 이 기술의 부작용으로, 훈련 데이터와 모델을 업데이트하면 모델 업데이트에 따라 전반적인 품질이 향상되더라도 음성이 약간 다르게 들릴 수 있습니다. 이는 예를 들어 팟캐스트 시즌과 같이 장기간에 걸쳐 다양한 콘텐츠 부분이 합성되는 사용 사례에 영향을 미칠 수 있습니다.

사용 가능한 롱폼 음성

Amazon Polly는 현재 4개의 en-US 및 2개의 es-ES 롱폼 음성을 지원합니다. 두 언어 모두 여성 및 남성 음성을 사용할 수 있습니다. 영어 롱폼 음성 Daniel, Gregory 및 Ruth는 대화형 NTTS 변형으로도 제공됩니다.

	언어	언어 코드	이름/ID	Gender
1	영어(미국)	en-US	Danielle Gregory Ruth Patrick	여성 남성 여성 남성
2	스페인어(스페인)	es-ES	Alba Raúl	여성 남성

언어

언어 코드

이름/ID

Gender

영어(미국)

en-US

Danielle

Gregory

Ruth

Patrick

여성

남성

여성

남성

스페인어(스페인)

es-ES

Alba

Raúl

여성

남성

기능 및 리전 호환성

Amazon Polly 롱폼 음성을 사용할 수 있는 리전은 다음과 같습니다.

미국 동부(버지니아 북부): us-east-1
기타 리전에서는 사용할 수 없음

Amazon Polly 롱폼 엔진이 지원하는 기능:

실시간 및 비동기 스피치 합성 작업
모든 스피치 마크
상당수의(전부 아님) SSML 태그가 Amazon Polly에서 지원됩니다. NTTS를 지원하는 SSML 태그에 대한 자세한 내용은 지원되는 SSML 태그를 참조하세요.
표준 음성의 경우와 마찬가지로, 다양한 샘플링 속도 중에서 선택하여 애플리케이션의 대역폭과 오디오 품질을 최적화할 수 있습니다. 표준, 롱폼 및 신경 음성에 맞는 샘플링 속도는 8kHz, 16kHz, 22kHz 또는 24kHz입니다. 표준 음성의 기본값은 22kHz이고 롱폼 및 신경 음성의 기본값은 24kHz입니다. Amazon Polly는 MP3, OGG(Vorbis) 및 원시 PCM 오디오 스트림 형식을 지원합니다.

참고

롱폼 음성 비용은 Amazon Polly 요금 정보 페이지에 명시되어 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

생성형 엔진

신경망 엔진