音声認識モデルの設定 - Amazon Lex

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

音声認識モデルの設定

Amazon Lex V2 には、ボットの音声認識機能の精度とパフォーマンスを最適化するために選択できるさまざまな音声認識モデルが用意されています。音声モデルの設定を設定して、ユースケースに最適なモデルを選択できます。

音声認識モデルタイプ

Amazon Lex V2 は、次の音声認識モデルをサポートしています。

標準モデル

標準音声認識モデルは、一般的なユースケースで信頼性の高い音声認識パフォーマンスを提供します。このモデルは、幅広いオーディオ条件にわたって一貫した精度を提供し、ほとんどの会話 AI アプリケーションに適しています。

ニューラルモデル

ニューラル音声認識モデルは、精度を高め、自然な音声パターン、アクセント、バックグラウンドノイズをより適切に処理します。このモデルは、高度なニューラルネットワークアーキテクチャを使用して、特に困難なオーディオ環境で認識パフォーマンスを向上させます。

ディープグラム

Deepgram は、アカウントと API キーを作成するユーザー向けのパブリックspeech-to-test (STT) API を提供します。パブリックオファリングの詳細については、https://deepgram.com/ を参照してください。

音声モデルの設定

ボットロケールを作成または更新するときに、音声モデルの設定を設定できます。音声モデル設定により、Amazon Lex V2 がボットの音声入力を処理するために使用する認識モデルが決まります。

音声モデルの設定を構成するには:

  1. Amazon Lex V2 コンソールで、ボットに移動し、設定するロケールを選択します。

  2. ボットロケール設定で、音声認識設定セクションを見つけます。

  3. 音声モデル設定で、次のいずれかのオプションを選択します。

    • 標準 - 標準の音声認識モデルを使用して、一般的なユースケースで信頼性の高いパフォーマンスを実現します。

    • ニューラル - ニューラル音声認識モデルを使用して、精度を高め、自然な音声パターンをより適切に処理します。

    • Deepgram - Deepgram の Listen API を音声認識に使用します。セットアップ手順については、「」を参照してくださいDeepgram 音声モデルの設定

  4. 変更を保存して、音声モデルの設定をボットロケールに適用します。

注記

音声モデル設定を指定しない場合、Amazon Lex V2 はデフォルトで標準モデルを使用します。

適切な音声モデルの選択

ボットの音声認識モデルを選択するときは、次の要因を考慮してください。

  • オーディオ品質 - ボットがバックグラウンドノイズ、さまざまなオーディオ品質、または困難な音響条件でオーディオを処理する場合、ニューラルモデルの方が精度が向上する可能性があります。

  • スピーカーの多様性 - ボットがさまざまなアクセントや音声パターンを持つユーザーとやり取りする場合、ニューラルモデルの強化された自然言語処理機能によって認識パフォーマンスが向上する可能性があります。

  • パフォーマンス要件 - 標準モデルは一貫したパフォーマンスを提供し、制御されたオーディオ環境とクリアな音声入力を持つアプリケーションには十分です。

特定のユースケースで両方のモデルをテストして、アプリケーションの精度とパフォーマンスの最適なバランスを提供する を決定できます。