롱폼 음성
Amazon Polly에는 사람과 비슷하고 표현력이 뛰어나며 감정적으로 능숙한 음성을 생성하는 롱폼 엔진이 있습니다. 롱폼 음성은 뉴스 기사, 교육 자료 또는 마케팅 비디오와 같은 긴 콘텐츠에서 청취자의 관심을 끌도록 설계되었습니다.
Amazon Polly 롱폼 음성은 최첨단 딥 러닝 TTS 기술을 사용하여 개발되었습니다. 이 모델은 인간 언어의 음소, 운율, 억양 및 기타 음성 및 음향 측면을 따라하도록 학습하여 매우 자연스러운 음성 출력을 제공합니다.
롱폼 엔진은 텍스트 임베딩을 사용하여 텍스트의 의미를 해석합니다. 롱폼 엔진은 텍스트 임베딩을 사용하여 자연스러운 음성의 올바른 강조, 멈춤, 톤을 생성할 수 있습니다. 그 결과 인간의 의사소통에 존재하는 모든 감정적 요소를 결합한 음성이 탄생합니다. 여기에는 놀라움을 모방하거나 대화와 내레이션을 구분하는 것이 포함됩니다. 이 모든 것이 합쳐져 살아 있는 사람처럼 들리는 프리미엄 스피치 산물이 생성됩니다.
참고
이러한 음성의 기반이 되는 최첨단 기술은 언어 및 음성 모델링을 위한 생성형 AI 패러다임에 속합니다. 이 기술의 부작용으로, 훈련 데이터와 모델을 업데이트하면 모델 업데이트에 따라 전반적인 품질이 향상되더라도 음성이 약간 다르게 들릴 수 있습니다. 이는 예를 들어 팟캐스트 시즌과 같이 장기간에 걸쳐 다양한 콘텐츠 부분이 합성되는 사용 사례에 영향을 미칠 수 있습니다.
사용 가능한 롱폼 음성
Amazon Polly는 현재 4개의 en-US 및 2개의 es-ES 롱폼 음성을 지원합니다. 두 언어 모두 여성 및 남성 음성을 사용할 수 있습니다. 영어 롱폼 음성 Daniel, Gregory 및 Ruth는 대화형 NTTS 변형으로도 제공됩니다.
| Language | 언어 코드 | 이름/ID | 성별 | |
|---|---|---|---|---|
1 |
영어(미국) |
en-US |
Danielle Gregory Ruth Patrick |
여성 남성 여성 남성 |
2 |
스페인어(스페인) |
es-ES |
Alba Raúl |
여성 남성 |
기능 및 리전 호환성
Amazon Polly 롱폼 음성을 사용할 수 있는 리전은 다음과 같습니다.
-
미국 동부(버지니아 북부): us-east-1
-
기타 리전에서는 사용할 수 없음
Amazon Polly 롱폼 엔진이 지원하는 기능:
-
실시간 및 비동기 스피치 합성 작업
-
모든 스피치 마크
-
상당수의(전부 아님) SSML 태그가 Amazon Polly에서 지원됩니다. NTTS를 지원하는 SSML 태그에 대한 자세한 내용은 지원되는 SSML 태그를 참조하세요.
-
표준 음성의 경우와 마찬가지로, 다양한 샘플링 속도 중에서 선택하여 애플리케이션의 대역폭과 오디오 품질을 최적화할 수 있습니다. 표준, 롱폼 및 신경 음성에 맞는 샘플링 속도는 8kHz, 16kHz, 22kHz 또는 24kHz입니다. 표준 음성의 기본값은 22kHz이고 롱폼 및 신경 음성의 기본값은 24kHz입니다. Amazon Polly는 MP3, OGG(Vorbis) 및 원시 PCM 오디오 스트림 형식을 지원합니다.
참고
롱폼 음성 비용은 Amazon Polly 요금 정보 페이지