翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 生成音声
<a name="generative-voices"></a>

Amazon Polly の**生成**テキスト読み上げ (TTS) エンジンは、Amazon Polly コンソールを介して使用できる、最も人間らしく、感情を伴った、適応性の高い会話音声を提供します。

**生成エンジン**は、これまでで最大の Amazon Polly TTS モデルです。生のテキストを音声コードに変換する 10 億パラメータのトランスフォーマーをデプロイし、次に、これらの音声コードを段階的かつストリーミング可能な方法で波形に変換する畳み込みベースのデコーダーをデプロイします。この方法により、さまざまな音声、言語、スタイルを含む公開データや独自データの量を増やして大規模言語モデル (LLM) をトレーニングすると、広く報告されている LLM の新たな能力が発揮されます。

生成エンジンは、人間の声によく似た、感情のこもった、しっかりした口調で、非常に口語的な合成音声を作成します。これらの音声は、知識豊富なカスタマーアシスタント、仮想トレーナー、または人間に近い合成音声を持つアドバタイザーとして使用できます。

**注記**  
これらの音声の基礎となる最先端のテクノロジーは、言語および音声モデリングのための生成 AI のパラダイムに該当します。このテクノロジーの副作用は、トレーニングデータやモデルを更新すると、モデルの更新によって全体的な品質が向上する場合でも、音声のサウンドにわずかなばらつきが生じる可能性があることです。これは、ポッドキャストのシーズンなど、長期にわたって合成したさまざまなコンテンツパートを使用するユースケースに影響を与える可能性があります。

## 利用可能な生成音声
<a name="generative-voicelist"></a>

Amazon Polly は現在、生成バリアントで 43 の音声を提供しています。


|  | 言語 | 言語コード | 名前/ID | 性別 | 
| --- | --- | --- | --- | --- | 
| 1 | **英語 (オーストラリア)** | en-AU | Olivia | 女性 | 
| 2 | **英語 (英国)** | en-GB | Amy<br />Brian | 女性<br />男性 | 
| 3 | **英語 (インド)** | en-IN | Kajal | 女性 | 
| 4 | **英語 (アイルランド)** | en-IN | Niamh | 女性 | 
| 5 | **英語 (ニュージーランド)** | en-NZ | Aria | 女性 | 
| 6 | **英語 (シンガポール)** | en-SG | Jasmine | 女性 | 
| 7 | **英語 (南アフリカ)** | en-ZA | Ayanda | 女性 | 
| 8 | **英語 (米国)** | en-US | Danielle<br />Joanna<br />Matthew<br />Ruth<br />Salli<br />Stephen<br />Tiffany | 女性<br />女性<br />男性<br />女性<br />女性<br />男性<br />女性 | 
| 9 | **オランダ語 (ベルギー)** | nl-BE | Lisa | 女性 | 
| 10 | **オランダ語 (オランダ)** | nl-NL | Laura | 女性 | 
| 11 | **フランス語 (ベルギー)** | fr-BE | Isabelle | 女性 | 
| 12 | **フランス語 (カナダ)** | fr-CA | Gabrielle<br />Liam | 女性<br />男性 | 
| 13 | **フランス語 (フランス)** | fr-FR | Ambre<br />Céline<br />フローリアン<br />Léa<br />Rémi | 女性<br />女性<br />男性<br />女性<br />男性 | 
| 14 | **ドイツ語 (オーストリア)** | de-AT | Hannah | 女性 | 
| 15 | **ドイツ語 (ドイツ)** | de-DE | Daniel<br />レナート<br />Vicki | 男性<br />男性<br />女性 | 
| 16 | **ドイツ語 (スイス)** | de-CH | Sabrina | 女性 | 
| 17 | **イタリア語 (イタリア)** | it-IT | ベアトリス<br />Bianca<br />Lorenzo | 女性<br />女性<br />男性 | 
| 18 | **韓国語 (韓国)** | ko-KR | Seoyeon | 女性 | 
| 19 | **ポーランド語 (ポーランド)** | pl-PL | Ewa<br />Ola | 女性<br />女性 | 
| 20 | **ポルトガル語 (ブラジル)** | pt-BR | Camila | 女性 | 
| 21 | **スペイン語 (メキシコ)** | es-MX | Andrés<br />Mía | 男性<br />女性 | 
| 22 | **スペイン語 (スペイン)** | es-ES | Lucia<br />Sergio | 女性<br />男性 | 
| 23 | **スペイン語 (米国)** | es-US | Lupe<br />Pedro | 女性<br />男性 | 

**注記**  
生成音声のコストは、[Amazon Polly 料金情報ページ](https://aws.amazon.com/polly/pricing/)に記載してあります。

## 機能とリージョンの互換性
<a name="generative-regions"></a>

Amazon Polly の生成音声は、以下のリージョンで利用できます。
+ 米国東部 (バージニア北部): us-east-1
+ 欧州 (フランクフルト): eu-central-1
+ 米国西部 (オレゴン): us-west-2
+ アジアパシフィック (東京): ap-northeast-1
+ アジアパシフィック (ソウル): ap-northeast-2
+ アジアパシフィック (シンガポール): ap-southeast-1
+ 欧州 (ロンドン): eu-west-2
+ カナダ (中部): ca-central-1
+ 他のリージョンでは利用できません。

**生成音声では、以下の機能がサポートされています。**
+ Bidirectional Streaming API が生成エンジンで提供され、入力と出力を同時にストリーミングできるようになりました。この API は、米国東部 (バージニア北部）、欧州 (フランクフルト）、米国西部 (オレゴン）、アジアパシフィック (シンガポール）、欧州 (ロンドン）、カナダ (中部) の各 AWS リージョンで利用できます。使用方法の詳細については、 [ドキュメント](https://docs.aws.amazon.com/polly/latest/dg/API_StartSpeechSynthesisStream.html)を参照してください。
+ リアルタイムおよび非同期の音声合成オペレーション。
+ ニュースキャスターの話し方は **生成**エンジンではサポートされていません。
+ Amazon Polly では、多くの (すべてではなく) SSML タグがサポートされています。NTTS でサポートされる SSML タグの詳細については、「[サポートされている SSML タグ](https://docs.aws.amazon.com/polly/latest/dg/supportedtags.html)」を参照してください。
+ 標準音声と同様に、さまざまなサンプリングレートから選択して、アプリケーションの帯域幅と音質を最適化できます。標準およびニューラル音声の有効なサンプリングレートは、8 kHz、16 kHz、22 kHz、または 24 kHz です。標準音声のデフォルトは 22 kHz です。生成音声のデフォルトは 24 kHz です。Amazon Polly は MP3、OGG (Vorbis)、raw PCM オーディオストリーム形式をサポートしています。

*スピーチマークの生成のサポートは現在利用できません。*

**注記**  
現在、欧州 (ロンドン) およびカナダ (中部) リージョンでは、次の生成音声のみがサポートされています。「Ambre (fr-FR)、Lorenzo (it-IT)、Beatrice (it-IT)、Jasmine (en-SG)、Aria (en-NZ)、Sabrina (de-CH)、Hannah (de-AT)、Niamh (en-IE)、Camila (pt-BR)、Lisa (nl-BE)、Seoyeon (ko-KR)」

**注記**  
モデルのハルシネーションが万一発生した場合 (および生成エンジンのモデル動作として音声をトークンごとにレンダリングする場合)、強制的な緊急停止メカニズムが作動します。組み込みメカニズムにより、モデルによる音声のレンダリングが中断されます。この安全機能は、モデルがハルシネーションを起こす可能性がある場合 (通常は文の最後) のデータ分析に基づいています。  
モデルが、ハルシネーションを予測して生成ステップ中に単語をカットすると、単語のレンダリングが途中になります。これにより、不適切な結果が生成されることがあります。