ニューラル音声
Amazon Polly には、標準音声よりも高品質の音声を生成できるニューラルテキスト読み上げ (NTTS) エンジンがあります。標準の TTS 音声では、連結合成が使用されます。標準エンジンは、録音された音声の音素を連結し、非常に自然な合成音声を生成します。ただし、音声の必然的なバリエーションや波形をセグメント化するために使用される手法によって、音声の品質が制限されます。Amazon Polly の NTTS は、音声を生成するために標準の連結合成を使用しません。これには 2 つの部分があります。
-
ニューラルネットワーク — 一連の音素 (言語の最も基本的な単位) を一連のスペクトログラムに変換します (スペクトログラムは、さまざまな周波数帯域のエネルギーレベルのスナップショットです)。
-
ボコーダー — スペクトログラムをほぼ連続したオーディオ信号に変換します。
ニューラル TTS システムの最初のコンポーネントは、シーケンスからシーケンスへのモデルです。このモデルは、対応する入力からのみ結果を作成するのではなく、入力要素のシーケンスがどのように連携するかを考慮します。このモデルは、出力するスペクトログラムを選択し、その周波数帯が、音声を処理するときに人間の脳が使用する音響能力を強調するようにします。
このモデルの出力は、ニューラルボコーダーに渡されます。これにより、スペクトログラムが音声波形に変換されます。汎用連結合成システムの構築に使用される大規模なデータセットでトレーニングすると、このシーケンスツーシーケンスのアプローチにより、さらに高品質で自然な音声が得られます。
利用可能なニューラル音声
ニューラル音声は 36 の言語と言語バリアントで利用できます。以下の表にそれらの設定を示します。
|
言語と言語バリアント | 言語コード | 名前/ID | 性別 |
|---|---|---|---|---|
|
1 |
アラビア語 (湾岸) |
ar-AE |
Hala Zayd |
女性 男性 |
|
2 |
ベルギーオランダ語 (フランドル語) |
nl-BE |
Lisa |
女性 |
|
3 |
カタロニア語 |
ca-ES |
Arlet |
女性 |
|
4 |
チェコ語 |
cs-CZ |
Jitka |
女性 |
|
5 |
中国語 (広東語) |
yue-CN |
Hiujin |
女性 |
|
6 |
標準中国語 |
cmn-CN |
Zhiyu |
女性 |
|
7 |
デンマーク語 |
da-DK |
Sofie |
女性 |
|
8 |
オランダ語 |
nl-NL |
Laura |
女性 |
|
9 |
英語 (オーストラリア) |
en-AU |
Olivia |
女性 |
|
10 |
英語 (英国) |
en-GB |
Amy* Emma Brian Arthur |
女性 女性 男性 男性 |
|
11 |
英語 (インド) |
en-IN |
Kajal |
女性 |
|
12 |
英語 (アイルランド語) |
en-IN |
Niamh |
女性 |
|
13 |
英語 (ニュージーランド) |
en-NZ |
Aria |
女性 |
|
14 |
英語 (シンガポール) |
en-SG |
Jasmine |
女性 |
|
15 |
英語 (南アフリカ) |
en-ZA |
Ayanda |
女性 |
|
16 |
英語 (米国) |
en-US |
Danielle Gregory Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen |
女性 男性 女性 (子) 女性 女性 女性 女性 男性 男性 (子) 男性 (子) 男性 女性 男性 |
|
17 |
フィンランド語 |
fi-FI |
Suvi |
女性 |
|
18 |
フランス語 (ベルギー) |
fr-BE |
Isabelle |
女性 |
|
19 |
フランス語 (カナダ) |
fr-CA |
Gabrielle Liam |
女性 男性 |
|
20 |
(フランス語) |
fr-FR |
Léa Rémi |
女性 男性 |
|
21 |
ドイツ語* |
de-DE |
Vicki Daniel |
女性 男性 |
|
22 |
ドイツ語 (オーストリア) |
de-AT |
Hannah |
女性 |
|
23 |
ドイツ語 (スイス) |
de-CH |
Sabrina |
女性 |
|
24 |
ヒンディー語 |
hi-IN |
Kajal |
女性 |
|
25 |
– イタリア語 |
it-IT |
Bianca Adriano |
女性 男性 |
|
26 |
日本語* |
ja-JP |
Takumi Kazuha Tomoko |
男性 女性 女性 |
|
27 |
韓国語* |
ko-KR |
Seoyeon Jihye |
女性 女性 |
|
28 |
ノルウェー語 |
nb-NO |
Ida |
女性 |
|
29 |
ポーランド語 |
pl-PL |
Ola |
女性 |
|
30 |
ポルトガル語 (ブラジル) |
pt-BR |
Camila Vitória/Vitoria Thiago |
女性 女性 男性 |
|
31 |
ポルトガル語 (欧州) |
pt-PT |
Inês/Ines |
女性 |
|
32 |
スペイン語 (スペイン) |
es-ES |
Lucia Sergio |
女性 男性 |
|
33 |
スペイン語 (メキシコ) |
es-MX |
Mia Andrés |
女性 男性 |
|
34 |
スペイン語 (米国) |
es-US |
Lupe* Pedro |
女性 男性 |
|
35 |
スウェーデン語 |
sv-SE |
Elin |
女性 |
|
36 |
トルコ語 |
tr-TR |
Burcu |
女性 |
*Amy、Joanna、Lupe、Matthew の音声は、ニュースキャスターの話し方で使用できます。詳細については、「ニュースキャスター音声の適用」を参照してください。
機能とリージョンの互換性
ニューラル音声は、すべての AWS リージョンで利用できるわけではありません。また、すべての Amazon Polly 機能をサポートしているわけでもありません。
ニューラル音声は、以下のリージョンでサポートされています。
-
米国東部 (バージニア北部): us-east-1
-
米国西部 (オレゴン): us-west-2
-
アフリカ (ケープタウン): af-south-1
-
アジアパシフィック (東京): ap-northeast-1
-
アジアパシフィック (ソウル): ap-northeast-2
-
アジアパシフィック (大阪): ap-northeast-3
-
アジアパシフィック (ムンバイ): ap-south-1
-
アジアパシフィック (シンガポール): ap-southeast-1
-
アジアパシフィック (シドニー): ap-southeast-2
-
アジア太平洋 (マレーシア): ap-southeast-5
-
カナダ (中部): ca-central-1
-
欧州 (フランクフルト): eu-central-1
-
欧州 (アイルランド): eu-west-1
-
欧州 (ロンドン): eu-west-2
-
欧州 (パリ): eu-west-3
-
欧州 (スペイン): eu-south-2
-
AWS GovCloud (米国西部): us-gov-west-1
これらのリージョンのエンドポイントとプロトコルは、標準音声に使用されるものと同じです。詳細については、Amazon Polly エンドポイントとクォータを参照してください。
ニューラル音声では、以下の機能がサポートされています。
-
リアルタイムおよび非同期の音声合成オペレーション。
-
ニュースキャスターの話し方。話し方の詳細については、ニュースキャスター音声の適用を参照してください。
-
すべてのスピーチマーク。
-
Amazon Polly でサポートされている多くの SSML タグ (すべてではありません)。NTTS でサポートされる SSML タグの詳細については、「サポートされているタグ」を参照してください。
標準音声と同様に、さまざまなサンプリングレートから選択して、アプリケーションの帯域幅と音質を最適化できます。標準およびニューラル音声の有効なサンプリングレートは、8 kHz、16 kHz、22 kHz、または 24 kHz です。標準音声のデフォルトは 22 kHz です。ニューラル音声のデフォルトは 24 kHz です。Amazon Polly は MP3、OGG (Vorbis)、raw PCM オーディオストリーム形式をサポートしています。