音声認識モデルの設定

Amazon Lex V2 には、ボットの音声認識機能の精度とパフォーマンスを最適化するために選択できるさまざまな音声認識モデルが用意されています。音声モデルの設定を設定して、ユースケースに最適なモデルを選択できます。

音声認識モデルタイプ

Amazon Lex V2 は、次の音声認識モデルをサポートしています。

標準モデル: 標準音声認識モデルは、一般的なユースケースで信頼性の高い音声認識パフォーマンスを提供します。このモデルは、幅広いオーディオ条件にわたって一貫した精度を提供し、ほとんどの会話型 AI アプリケーションに適しています。
ニューラルモデル: ニューラル音声認識モデルは、精度を高め、自然な音声パターン、アクセント、バックグラウンドノイズをより適切に処理します。このモデルは、高度なニューラルネットワークアーキテクチャを使用して、特に困難なオーディオ環境で認識パフォーマンスを向上させます。
ディープグラム: Deepgram は、アカウントと API キーを作成するユーザー向けのパブリックspeech-to-text (STT) API を提供します。パブリックオファリングの詳細については、https://deepgram.com/ を参照してください。

ボットロケールを作成または更新するときに、音声モデルの設定を設定できます。音声モデル設定により、Amazon Lex V2 がボットの音声入力を処理するために使用する認識モデルが決まります。

音声モデルの設定を構成するには:

Amazon Lex V2 コンソールで、ボットに移動し、設定するロケールを選択します。
ボットロケール設定で、音声認識設定セクションを見つけます。
音声モデル設定で、次のいずれかのオプションを選択します。
- 標準 - 標準の音声認識モデルを使用して、一般的なユースケース全体で信頼性の高いパフォーマンスを実現します。
- ニューラル - ニューラル音声認識モデルを使用して、精度を高め、自然な音声パターンをより適切に処理します。
- Deepgram - Deepgram の Listen API を音声認識に使用します。セットアップ手順については、「」を参照してくださいDeepgram 音声モデルの設定。
変更を保存して、音声モデルの設定をボットロケールに適用します。

音声モデル設定を指定しない場合、Amazon Lex V2 はデフォルトで標準モデルを使用します。

ボットの音声認識モデルを選択するときは、次の要素を考慮してください。

オーディオ品質 - ボットがバックグラウンドノイズ、さまざまなオーディオ品質、または困難な音響条件でオーディオを処理する場合、ニューラルモデルの方が精度が向上する可能性があります。
スピーカーの多様性 - ボットがさまざまなアクセントや音声パターンを持つユーザーとやり取りする場合、ニューラルモデルの強化された自然言語処理機能によって認識パフォーマンスが向上する可能性があります。
パフォーマンス要件 - 標準モデルは一貫したパフォーマンスを提供し、制御されたオーディオ環境とクリアな音声入力を持つアプリケーションには十分です。

特定のユースケースで両方のモデルをテストして、アプリケーションの精度とパフォーマンスの最適なバランスを提供するを決定できます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

Lex V2 ボットで使用する音声文字起こしのカスタマイズ

Deepgram 音声モデルの設定