새 어휘 개체 추가

InvokeDataAutomationLibraryIngestionJob API를 사용하여 라이브러리에 어휘를 추가할 수 있습니다. S3 매니페스트 파일 또는 인라인 페이로드를 통해 어휘를 제공할 수 있습니다.

중요

UPSERT 작업은 개체 수준에서 clobber 스타일 대체를 사용합니다. 즉, 전체 개체가 기존 콘텐츠와 병합되지 않고 대체됩니다.

옵션 1: S3 매니페스트 파일 사용

1단계: JSONL 매니페스트 파일 생성

예시: vocabulary-manifest.json


{"entityId":"medical-en","description":"Medication terms in English language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"EN"}
{"entityId":"medical-es","description":"Medication terms in Spanish language","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"},{"text":"acetaminophen","displayAsText":"acetaminophen"}],"language":"ES"}

매니페스트 파일 요구 사항:

파일 형식: JSONL(JSON 라인)
개체 JSON:
- entityId(필수): 고유 식별자(최대 128자)
- 설명(선택 사항): entityId에 대한 설명
- 언어(필수): ISO 언어 코드(지원되는 언어)
- phrases(필수): 텍스트 객체 배열입니다. 각 객체에는 다음이 포함됩니다.
  - text(필수): 개별 단어 또는 문구
  - displayAsText(선택 사항): 트랜스크립트의 실제 단어를 대체하는 데 사용합니다(참고: 대소문자 구분).

2단계: S3에 매니페스트 업로드


aws s3 cp vocabulary-manifest.json s3://my-bucket/manifests/

3단계: 수집 작업 시작

InvokeDataAutomationLibraryIngestionJob을 사용하여 어휘 수집 작업을 시작합니다.

AWS CLI 예제:

요청


aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \
    --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \
    --entity-type "VOCABULARY" \
    --operation-type "UPSERT" \
    --input-configuration '{"s3Object":{"s3Uri":"s3://my-bucket/manifests/vocabulary-manifest.json"}}' \
    --output-configuration '{"s3Uri":"s3://my-bucket/outputs/"}'

응답:


{
  "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345"
}

AWS 콘솔 예제:

"라이브러리 세부 정보" 페이지로 이동합니다.
“사용자 지정 어휘 목록 추가”를 선택합니다.
"매니페스트 업로드/선택"을 선택합니다.
매니페스트 파일을 직접 업로드할지 아니면 S3 위치에서 업로드할지 선택합니다.

옵션 2: 인라인 페이로드 사용

이 옵션은 최대 100개의 문구로 빠른 업데이트에 사용할 수 있습니다.

InvokeDataAutomationLibraryIngestionJob을 사용하여 어휘 수집 작업을 시작합니다.

AWS CLI 예제:

요청


aws bedrock-data-automation-data-automation invoke-data-automation-library-ingestion-job \
    --library-arn "arn:aws:bedrock:us-east-1:123456789012:data-automation-library/healthcare-vocabulary" \
    --entity-type "VOCABULARY" \
    --operation-type "UPSERT" \
    --input-configuration '{"inlinePayload":{"upsertEntitiesInfo":[{"vocabulary":{"entityId":"medical-en","language":"EN","phrases":[{"text":"paracetamol"},{"text":"ibuprofen"}]}}]}}' \
    --output-configuration '{"s3Uri":"s3://bda-data-bucket/output/"}'

응답:


{
  "jobArn": "arn:aws:bedrock:us-east-1:123456789012:data-automation-library-ingestion-job/job-12345"
}

AWS 콘솔 예제:

"라이브러리 세부 정보" 페이지로 이동합니다.
“사용자 지정 어휘 목록 추가”를 선택합니다.
"수동으로 추가"를 선택합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

사용자 지정 어휘 개체 관리

어휘 개체 업데이트