어휘 필터 생성
사용자 지정 어휘 필터를 생성할 수 있는 두 가지 옵션이 있습니다.
-
줄로 구분된 단어 목록을 UTF-8 인코딩의 일반 텍스트 파일로 저장합니다.
이 접근 방식은 AWS Management 콘솔, AWS CLI, 또는 AWS SDK에서 사용할 수 있습니다.
AWS Management 콘솔을 사용하는 경우 사용자 지정 어휘 파일의 로컬 경로나 Amazon S3 URI를 제공할 수 있습니다.
AWS CLI 또는 AWS SDK를 사용하는 경우 사용자 지정 어휘 파일을 Amazon S3 버킷에 업로드하고 요청에 Amazon S3 URI를 포함해야 합니다.
-
API 요청에 쉼표로 구분된 단어 목록을 직접 포함합니다.
-
이 접근 방식은
Words파라미터를 통해 AWS CLI 또는 AWS SDK에서 사용할 수 있습니다.
-
각 방법의 예는 사용자 지정 어휘 필터 생성 섹션을 참조하세요.
사용자 지정 어휘 필터를 생성할 때 참고할 사항:
-
단어는 대/소문자를 구분하지 않습니다 예를 들어, "curse"와 "CURSE"는 동일한 단어로 취급합니다.
-
정확히 일치하는 단어만 필터링합니다. 예를 들어 필터에 "swear"가 포함되어 있지만 미디어에 "swears" 또는 "swearing"이라는 단어가 포함된 경우 이러한 단어는 필터링하지 않습니다. "swear" 인스턴스만 필터링합니다. 따라서 필터링하려는 단어의 모든 변형을 포함해야 합니다.
-
다른 단어에 포함된 단어에는 필터가 적용되지 않습니다. 예를 들어, 사용자 지정 어휘 필터에 "marine"이 포함되지만 "submarine"은 포함되지 않은 경우 트랜스크립션에서 "submarine"이 변경되지 않습니다.
-
각 항목은 공백 없이 한 단어만 포함할 수 있습니다.
-
사용자 지정 어휘 필터를 텍스트 파일로 저장하는 경우 UTF-8 인코딩의 일반 텍스트 형식이어야 합니다.
-
사용자 지정 어휘 필터는 AWS 계정당 최대 100개까지 사용할 수 있으며 각 필터의 최대 용량은 50Kb일 수 있습니다.
-
해당 언어에 지원되는 문자만 사용할 수 있습니다. 자세한 내용은 해당 언어의 문자 집합을 참조하세요.
사용자 지정 어휘 필터 생성
Amazon Transcribe에서 사용할 사용자 지정 어휘 필터를 처리하려면 다음 예를 참조하세요.
계속하기 전에 사용자 지정 어휘 필터를 텍스트(*.txt) 파일로 저장하세요. 필요에 따라 파일을 Amazon S3 버킷에 업로드할 수 있습니다.
-
에 로그인합니다..AWS Management 콘솔
-
탐색 창에서 어휘 필터링을 선택합니다. 그러면 기존 사용자 지정 어휘 필터를 확인하거나 새 필터를 생성할 수 있는 어휘 필터 페이지가 열립니다.
-
어휘 필터 생성을 선택합니다.
그러면 어휘 필터 생성 페이지로 이동합니다. 새 사용자 지정 어휘 필터의 이름을 입력합니다.
어휘 입력 소스에서 파일 업로드 또는 S3 위치 옵션을 선택합니다. 그런 다음 사용자 지정 어휘 파일의 위치를 지정합니다.
-
필요에 따라 사용자 지정 어휘 필터에 태그를 추가합니다. 모든 필드를 작성하면 페이지 하단에서 어휘 필터 생성을 선택합니다. 파일을 처리하는 중에 오류가 없는 경우 어휘 필터 페이지로 돌아갑니다.
이제 사용자 지정 어휘 필터를 사용할 준비가 되었습니다.
이 예시에서는 create-vocaary-filter 명령을 사용하여 단어 목록을 사용 가능한 사용자 지정 어휘 필터로 처리합니다. 자세한 내용은 CreateVocabularyFilter 단원을 참조하세요.
옵션 1: words 파라미터를 사용하여 요청에 단어 목록을 포함할 수 있습니다.
aws transcribe create-vocabulary-filter \ --vocabulary-filter-namemy-first-vocabulary-filter\ --language-codeen-US\ --wordsprofane,offensive,Amazon,Transcribe
옵션 2: 단어 목록을 텍스트 파일로 저장하고 Amazon S3 버킷에 업로드한 다음 vocabulary-filter-file-uri 파라미터를 사용하여 요청에 파일의 URI를 포함시킬 수 있습니다.
aws transcribe create-vocabulary-filter \ --vocabulary-filter-namemy-first-vocabulary-filter\ --language-codeen-US\ --vocabulary-filter-file-uri s3://amzn-s3-demo-bucket/my-vocabulary-filters/my-vocabulary-filter.txt
다음은 create-vocabulary-filter 명령을 사용하는 또 다른 예 및 사용자 지정 어휘 필터를 생성하는 요청 본문입니다.
aws transcribe create-vocabulary-filter \ --cli-input-json file://filepath/my-first-vocab-filter.json
my-first-vocab-filter.json 파일에는 다음과 같은 요청 본문이 포함되어 있습니다.
옵션 1: Words 파라미터를 사용하여 요청에 단어 목록을 포함할 수 있습니다.
{ "VocabularyFilterName": "my-first-vocabulary-filter", "LanguageCode": "en-US", "Words": [ "profane","offensive","Amazon","Transcribe" ] }
옵션 2: 단어 목록을 텍스트 파일로 저장하고 Amazon S3 버킷에 업로드한 다음 VocabularyFilterFileUri 파라미터를 사용하여 요청에 파일의 URI를 포함시킬 수 있습니다.
{ "VocabularyFilterName": "my-first-vocabulary-filter", "LanguageCode": "en-US", "VocabularyFilterFileUri": "s3://amzn-s3-demo-bucket/my-vocabulary-filters/my-vocabulary-filter.txt" }
참고
요청에 VocabularyFilterFileUri를 포함하는 경우 Words를 사용할 수 없으며 둘 중 하나를 선택해야 합니다.
이 예시에서는 AWS SDK for Python (Boto3)를 통해 create_vocaary_filterCreateVocabularyFilter 단원을 참조하세요.
기능별, 시나리오 및 교차 서비스 예를 포함하여 AWS SDK를 사용하는 추가 예시는 AWS SDK를 사용한 Amazon Transcribe용 코드 예시 장을 참조하세요.
옵션 1: Words 파라미터를 사용하여 요청에 단어 목록을 포함할 수 있습니다.
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary-filter" response = transcribe.create_vocabulary_filter( LanguageCode = 'en-US', VocabularyFilterName = vocab_name, Words = [ 'profane','offensive','Amazon','Transcribe' ] )
옵션 2: 단어 목록을 텍스트 파일로 저장하고 Amazon S3 버킷에 업로드한 다음 VocabularyFilterFileUri 파라미터를 사용하여 요청에 파일의 URI를 포함시킬 수 있습니다.
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary-filter" response = transcribe.create_vocabulary_filter( LanguageCode = 'en-US', VocabularyFilterName = vocab_name, VocabularyFilterFileUri = 's3://amzn-s3-demo-bucket/my-vocabulary-filters/my-vocabulary-filter.txt' )
참고
요청에 VocabularyFilterFileUri를 포함하는 경우 Words를 사용할 수 없으며 둘 중 하나를 선택해야 합니다.
참고
사용자 지정 어휘 필터 파일을 위한 새 Amazon S3 버킷을 만드는 경우 CreateVocabularyFilter 요청을 하는 IAM 역할에 이 버킷에 액세스할 수 있는 권한이 있는지 확인합니다. 역할에 올바른 권한이 없는 경우 요청이 실패합니다. 필요에 따라 DataAccessRoleArn 파라미터를 포함하여 요청 내에서 IAM 역할을 지정할 수 있습니다. Amazon Transcribe의 IAM 역할 및 정책에 대한 자세한 내용은 Amazon Transcribe ID 기반 정책 예제를 참조하세요.