기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 멀티모달 콘텐츠에 대한 지식 기반 생성
<a name="kb-multimodal-create"></a>

콘솔 또는 API를 사용하여 멀티모달 지식 기반을 생성할 수 있습니다. 멀티모달 처리 요구 사항에 따라 접근 방식을 선택합니다.

**중요**  
다중 모달 지원은 비정형 데이터 소스로 지식 기반을 생성할 때만 사용할 수 있습니다. 구조화된 데이터 소스는 멀티모달 콘텐츠 처리를 지원하지 않습니다.

------
#### [ Console ]

**콘솔에서 멀티모달 지식 기반을 생성하려면**

1. Amazon Bedrock 콘솔을 사용할 권한이 있는 IAM 자격 증명 AWS Management Console 으로에 로그인합니다. 그 다음 [https://console.aws.amazon.com/bedrock](https://console.aws.amazon.com/bedrock)에서 Amazon Bedrock 콘솔을 엽니다.

1. 왼쪽 탐색 창에서 **지식 기반**을 선택합니다.

1. **지식 기반** 섹션에서 **생성**을 선택한 다음 **벡터 저장소가 있는 지식 기반**을 선택합니다.

1. (선택 사항) **지식 기반 세부 정보** 섹션에서 지식 기반의 기본 이름을 변경하고 설명을 제공합니다.

1. **IAM 권한** 섹션에서 다른 필수 AWS 서비스에 액세스할 수 있는 권한을 Amazon Bedrock에 제공하는 IAM 역할을 선택합니다. Amazon Bedrock에서 서비스 역할을 생성하도록 하거나 자체 사용자 지정 역할을 사용하도록 선택할 수 있습니다. 멀티모달 권한은 섹션을 참조하세요[멀티모달 콘텐츠에 대한 권한](kb-permissions.md#kb-permissions-multimodal).

1. **Amazon S3**를 데이터 소스로 선택하고 **다음을** 선택하여 데이터 소스를 구성합니다.
**참고**  
지식 기반 생성 중에 최대 5개의 Amazon S3 데이터 소스를 추가할 수 있습니다. 지식 기반이 생성된 후 추가 데이터 소스를 추가할 수 있습니다.

1. 멀티모달 콘텐츠가 포함된 버킷의 **S3 URI**를 제공하고 필요한 경우 포함 접두사를 구성합니다. 포함 접두사는 수집되는 콘텐츠를 제한하는 데 사용할 수 있는 폴더 경로입니다.

1. **청킹 및 구문 분석 구성**에서 구문 분석 전략을 선택합니다.
   + **Bedrock 기본 구문 분석기:** 텍스트 전용 콘텐츠 처리에 권장됩니다. 이 구문 분석기는 다중 모달 파일을 무시하면서 일반적인 텍스트 형식을 처리합니다. Word, Excel, HTML, Markdown, TXT 및 CSV 파일을 포함한 텍스트 문서를 지원합니다.
   + **Bedrock Data Automation(BDA):** 멀티모달 콘텐츠를 검색 가능한 텍스트 표현으로 변환합니다. PDFs, 이미지, 오디오 및 비디오 파일을 처리하여 텍스트를 추출하고, 시각적 콘텐츠에 대한 설명을 생성하고, 오디오 및 비디오 콘텐츠에 대한 트랜스크립션을 생성합니다.
   + **파운데이션 모델 구문 분석기:** 복잡한 문서 구조를 위한 고급 구문 분석 기능을 제공합니다. PDFs, 이미지, 구조화된 문서, 테이블 및 시각적으로 풍부한 콘텐츠를 처리하여 텍스트를 추출하고 시각적 요소에 대한 설명을 생성합니다.

1. **다음을** 선택하고 임베딩 모델 및 멀티모달 처리 접근 방식을 선택합니다.
   + **Amazon Nova Multimodal Embeddings V1.0:** 직접 시각적 객체 및 오디오 유사성 검색을 위해 **Amazon Nova 임베딩 V1.0**을 선택합니다. 콘텐츠가 세그먼트화되는 방식을 제어하도록 오디오 및 비디오 청크 지속 시간(1\$130초, 기본값 5초)을 구성합니다.
**참고**  
오디오 및 비디오 청킹 파라미터는 데이터 소스 수준이 아닌 임베딩 모델 수준에서 구성됩니다. 비 멀티모달 임베딩 모델에 대해 이 구성을 제공하면 검증 예외가 발생합니다. 콘텐츠가 세그먼트화되는 방식을 제어하도록 오디오 및 비디오 청크 지속 시간(기본값: 5초, 범위: 1\$130초)을 구성합니다. 청크가 짧을수록 정확한 콘텐츠 검색이 가능하지만 청크가 길수록 의미론적 컨텍스트가 더 많이 보존됩니다.
**중요**  
Amazon Nova 임베딩 v1.0은 오디오/비디오 데이터에서 음성 콘텐츠를 검색할 수 있는 지원이 제한적입니다. 음성을 지원해야 하는 경우 Bedrock Data Automation을 구문 분석기로 사용합니다.
   + **BDA를 사용한 텍스트 임베딩:** BDA 처리를 사용할 때 텍스트 임베딩 모델(예: Titan Text Embeddings v2)을 선택합니다. 텍스트 임베딩 모델은 텍스트 전용 콘텐츠로 검색을 제한하지만 Amazon Bedrock 데이터 자동화 또는 파운데이션 모델을 파서로 선택하여 멀티모달 검색을 활성화할 수 있습니다.
**참고**  
Nova 멀티모달 임베딩과 함께 BDA 구문 분석기를 사용하는 경우 Amazon Bedrock 지식 기반은 먼저 BDA 구문 분석을 사용합니다. 이 경우 BDA가 이를 텍스트 표현으로 변환하므로 임베딩 모델은 이미지, 오디오 및 비디오에 대한 기본 멀티모달 임베딩을 생성하지 않습니다.

1. Nova 멀티모달 임베딩을 사용하는 경우, 처리된 파일이 검색을 위해 저장될 Amazon S3 버킷을 지정하여 **멀티모달 스토리지 대상**을 구성합니다. 지식 기반은 쉽게 액세스할 수 있도록 .bda 폴더가 생성된 단일 Amazon S3 버킷에 구문 분석된 이미지를 저장합니다.
**수명 주기 정책 권장 사항**  
Nova 멀티모달 임베딩을 사용하는 경우 Amazon Bedrock은 임시 데이터를 멀티모달 스토리지 대상에 저장하고 처리가 완료된 후 삭제를 시도합니다. 적절한 정리를 위해 임시 데이터 경로에 수명 주기 정책을 적용하는 것이 좋습니다. 자세한 지침은 [Amazon S3 수명 주기 정책을 사용하여 임시 데이터 관리](kb-multimodal-troubleshooting.md#kb-multimodal-lifecycle-policy) 섹션을 참조하세요.

1. **벡터 데이터베이스** 섹션에서 벡터 저장소 방법을 선택하고 선택한 임베딩 모델에 따라 적절한 차원을 구성합니다.

1. **다음을** 선택하고 지식 기반 구성의 세부 정보를 검토한 다음 **지식 기반 생성을** 선택합니다.

------
#### [ CLI ]

**를 사용하여 멀티모달 지식 기반을 생성하려면 AWS CLI**
+ Nova 멀티모달 임베딩을 사용하여 지식 기반을 생성합니다. [https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html) 요청 전송:

  ```
  aws bedrock-agent create-knowledge-base \
  --cli-input-json file://kb-nova-mme.json
  ```

  의 내용`kb-nova-mme.json`(자리 표시자 값을 특정 구성으로 대체):

  ```
  {
      "knowledgeBaseConfiguration": {
          "vectorKnowledgeBaseConfiguration": {
              "embeddingModelArn": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-2-multimodal-embeddings-v1:0",
              "supplementalDataStorageConfiguration": {
                  "storageLocations": [
                      {
                          "type": "S3",
                          "s3Location": {
                              "uri": "s3://<multimodal-storage-bucket>/"
                          }
                      }
                  ]
              }
          },
          "type": "VECTOR"
      },
      "storageConfiguration": {
          "opensearchServerlessConfiguration": {
              "collectionArn": "arn:aws:aoss:us-east-1:<account-id>:collection/<collection-id>",
              "vectorIndexName": "<index-name>",
              "fieldMapping": {
                  "vectorField": "<vector-field>",
                  "textField": "<text-field>",
                  "metadataField": "<metadata-field>"
              }
          },
          "type": "OPENSEARCH_SERVERLESS"
      },
      "name": "<knowledge-base-name>",
      "description": "Multimodal knowledge base with Nova Multimodal Embeddings"
  }
  ```

  다음과 같이 자리 표시자를 바꿉니다.
  + `<multimodal-storage-bucket>` - 멀티모달 파일을 저장하기 위한 S3 버킷
  + `<account-id>` - AWS 계정 ID
  + `<collection-id>` - OpenSearch Serverless 컬렉션 ID
  + `<index-name>` - OpenSearch 컬렉션의 벡터 인덱스 이름(선택한 임베딩 모델에 적합한 차원으로 구성됨)
  + `<vector-field>` - 임베딩 저장을 위한 필드 이름
  + `<text-field>` - 텍스트 콘텐츠 저장을 위한 필드 이름
  + `<metadata-field>` - 메타데이터 저장을 위한 필드 이름

------