配置语音识别模型首选项 - Amazon Lex

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

配置语音识别模型首选项

Amazon Lex V2 提供了不同的语音识别模型,您可以从中进行选择,以优化机器人语音识别功能的准确性和性能。您可以配置语音模型首选项,以选择最适合您的用例的模型。

语音识别模型类型

Amazon Lex V2 支持以下语音识别模型:

标准型号

标准语音识别模型为一般用例提供可靠的语音识别性能。该模型可在各种音频条件下提供一致的准确性,适用于大多数对话式 AI 应用程序。

神经模型

神经语音识别模型可提高准确性,更好地处理自然语音模式、口音和背景噪音。该模型使用先进的神经网络架构来提高识别性能,尤其是在具有挑战性的音频环境中。

深度格拉姆

Deepgram 为创建账户和 API 密钥的用户提供了一个公共 speech-to-test (STT) API。有关其公开发行的信息,请参阅 https://deepgram.com/

配置语音模型首选项

在创建或更新机器人区域设置时,您可以配置语音模型首选项。语音模型首选项设置决定了 Amazon Lex V2 使用哪种识别模型来处理机器人的音频输入。

要配置语音模型首选项,请执行以下操作:

  1. 在 Amazon Lex V2 控制台中,导航到您的机器人并选择要配置的区域设置。

  2. 在机器人区域设置中,找到语音识别设置部分。

  3. 对于语音模型首选项,请选择以下选项之一:

    • 标准-使用标准语音识别模型在一般用例中获得可靠的性能。

    • 神经-使用神经语音识别模型可提高准确性,更好地处理自然语音模式。

    • Deepgram-使用 Deepgram 的收听 API 进行语音识别。有关设置说明,请参阅设置 Deepgram 语音模型首选项

  4. 保存您的更改,将语音模型首选项应用于您的机器人区域设置。

注意

如果您未指定语音模型首选项,Amazon Lex V2 会默认使用标准模型。

选择正确的语音模型

为机器人选择语音识别模型时,请考虑以下因素:

  • 音频质量-如果您的机器人处理带有背景噪音、不同音频质量或具有挑战性的声学条件的音频,则神经模型可能会提供更好的准确性。

  • 说话@@ 者多样性 ——如果你的机器人将与口音或语音模式不同的用户互动,那么神经模型增强的自然语言处理能力可能会提高识别性能。

  • 性能要求-标准型号提供一致的性能,可能足以满足音频环境受控和清晰语音输入的应用。

您可以根据自己的具体用例测试这两个模型,以确定哪个模型在准确性和性能之间取得了最佳平衡。