음성 인식 모델 기본 설정 구성 - Amazon Lex

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

음성 인식 모델 기본 설정 구성

Amazon Lex V2는 봇의 음성 인식 기능의 정확성과 성능을 최적화하기 위해 선택할 수 있는 다양한 음성 인식 모델을 제공합니다. 사용 사례에 가장 적합한 모델을 선택하도록 음성 모델 기본 설정을 구성할 수 있습니다.

음성 인식 모델 유형

Amazon Lex V2는 다음과 같은 음성 인식 모델을 지원합니다.

표준 모델

표준 음성 인식 모델은 일반적인 사용 사례에 안정적인 음성 인식 성능을 제공합니다. 이 모델은 다양한 오디오 조건에서 일관된 정확도를 제공하며 대부분의 대화형 AI 애플리케이션에 적합합니다.

신경 모델

신경 음성 인식 모델은 향상된 정확도를 제공하고 자연 음성 패턴, 액센트 및 배경 노이즈를 더 잘 처리합니다. 이 모델은 고급 신경망 아키텍처를 사용하여 특히 까다로운 오디오 환경에서 인식 성능을 개선합니다.

딥그램

Deepgram은 계정과 API 키를 생성하는 사용자를 위해 퍼블릭 speech-to-testSTT) API를 제공합니다. 공개 상품에 대한 자세한 내용은 https://deepgram.com/ 참조하십시오.

스피치 모델 기본 설정 구성

봇 로캘을 생성하거나 업데이트할 때 음성 모델 기본 설정을 구성할 수 있습니다. 스피치 모델 기본 설정에서는 Amazon Lex V2가 봇의 오디오 입력을 처리하는 데 사용하는 인식 모델을 결정합니다.

스피치 모델 기본 설정을 구성하려면:

  1. Amazon Lex V2 콘솔에서 봇으로 이동하여 구성할 로캘을 선택합니다.

  2. 봇 로캘 설정에서 음성 인식 설정 섹션을 찾습니다.

  3. 음성 모델 기본 설정에서 다음 옵션 중 하나를 선택합니다.

    • 표준 - 일반 사용 사례에서 안정적인 성능을 얻으려면 표준 음성 인식 모델을 사용합니다.

    • 신경 - 신경 음성 인식 모델을 사용하여 정확도를 높이고 자연 음성 패턴을 더 잘 처리할 수 있습니다.

    • Deepgram - 음성 인식에 Deepgram의 Listen API를 사용합니다. 설정 지침은 섹션을 참조하세요Deepgram 스피치 모델 기본 설정 지정.

  4. 변경 사항을 저장하여 음성 모델 기본 설정을 봇 로캘에 적용합니다.

참고

스피치 모델 기본 설정을 지정하지 않으면 Amazon Lex V2는 기본적으로 표준 모델을 사용합니다.

올바른 스피치 모델 선택

봇에 대한 음성 인식 모델을 선택할 때는 다음 요소를 고려하세요.

  • 오디오 품질 - 봇이 배경 노이즈, 다양한 오디오 품질 또는 까다로운 음향 조건으로 오디오를 처리하는 경우 신경 모델이 더 나은 정확도를 제공할 수 있습니다.

  • 화자 다양성 - 봇이 다양한 액센트 또는 스피치 패턴을 가진 사용자와 상호 작용하는 경우 신경 모델의 향상된 자연어 처리 기능이 인식 성능을 개선할 수 있습니다.

  • 성능 요구 사항 - 표준 모델은 일관된 성능을 제공하며 오디오 환경이 제어되고 음성 입력이 명확한 애플리케이션에 충분할 수 있습니다.

특정 사용 사례로 두 모델을 모두 테스트하여 애플리케이션에 가장 적합한 정확도와 성능의 균형을 제공하는 모델을 결정할 수 있습니다.