

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 데이터 소스 추가 및 수집 시작
<a name="kb-multimodal-add-data-source-and-ingest"></a>

지식 기반을 생성한 후 멀티모달 콘텐츠가 포함된 데이터 소스를 추가하고 수집 작업을 시작하여 콘텐츠를 처리하고 인덱싱합니다.

**데이터 소스 삭제 동작**  
삭제 정책이 RETAIN으로 설정된 데이터 소스를 삭제하면 수집된 콘텐츠가 벡터 데이터베이스에 남아 검색에 계속 사용됩니다. 콘텐츠는 데이터 소스를 삭제한 후 지식 기반을 명시적으로 동기화하는 경우에만 제거됩니다. 기본 DELETE 정책이 있는 데이터 소스는 삭제 중에 벡터 데이터베이스 및 보충 스토리지에서 콘텐츠를 자동으로 제거합니다. 이렇게 하면 소스 파일이 수정되거나 삭제되더라도 지식 기반이 계속 작동하지만 RETAIN 정책을 사용하여 삭제된 데이터 소스가 여전히 검색 결과에 기여할 수 있다는 점에 유의해야 합니다.

## 데이터 소스 추가
<a name="kb-multimodal-add-data-source"></a>

지식 기반에 멀티모달 콘텐츠가 포함된 데이터 소스를 추가합니다.

**중요**  
BDA 데이터 소스의 경우: 오디오/비디오 지원 시작 후 생성된 데이터 소스만 오디오 및 비디오 파일을 처리합니다. 이 기능 시작 전에 생성된 기존 BDA 데이터 소스는 오디오 및 비디오 파일을 계속 건너뜁니다. 기존 지식 기반에 대한 오디오/비디오 처리를 활성화하려면 새 데이터 소스를 생성합니다.

------
#### [ Console ]

**콘솔에서 데이터 소스를 추가하려면**

1. 지식 기반 세부 정보 페이지에서 **데이터 소스 추가**를 선택합니다.

1. **Amazon S3**를 데이터 소스 유형으로 선택합니다.

1. 데이터 소스의 이름과 설명을 입력합니다.

1. 버킷 URI와 포함 접두사를 제공하여 멀티모달 파일이 포함된 Amazon S3 위치를 구성합니다.

1. **콘텐츠 구문 분석 및 청킹**에서 구문 분석 및 청킹 방법을 구성합니다.
**참고**  
텍스트 임베딩 모델은 텍스트 전용 콘텐츠로 검색을 제한하지만 Amazon Bedrock 데이터 자동화(오디오, 비디오 및 이미지용) 또는 파운데이션 모델을 파서(이미지용)로 선택하여 텍스트를 통한 멀티모달 검색을 활성화할 수 있습니다.

   다음 세 가지 구문 분석 전략 중에서 선택합니다.
   + **Bedrock 기본 구문 분석기:** 텍스트 전용 구문 분석에 권장됩니다. 이 구문 분석기는 멀티모달 콘텐츠를 무시하며 일반적으로 멀티모달 임베딩 모델에 사용됩니다.
   + **Bedrock Data Automation as parser:** 멀티모달 콘텐츠를 구문 분석하고 텍스트로 저장하여 PDFs, 이미지, 오디오 및 비디오 파일을 지원합니다.
   + **파서로서의 파운데이션 모델:** 이미지 및 구조화된 문서에 대한 고급 구문 분석을 제공하여 PDFs, 이미지, 테이블 및 시각적으로 풍부한 문서를 지원합니다.

1. **데이터 소스 추가**를 선택하여 데이터 소스를 생성합니다.

------
#### [ CLI ]

**를 사용하여 데이터 소스를 추가하려면 AWS CLI**
+ 멀티모달 콘텐츠에 대한 데이터 소스를 생성합니다. [https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html) 요청 전송:

  ```
  aws bedrock-agent create-data-source \
  --knowledge-base-id <knowledge-base-id> \
  --cli-input-json file://ds-multimodal.json
  ```

  Nova 멀티모달 임베딩(특수 구문 분석 구성 필요 없음)의 경우 다음 `ds-multimodal.json` 콘텐츠를 사용합니다.

  ```
  {
      "dataSourceConfiguration": {
          "type": "S3",
          "s3Configuration": {
              "bucketArn": "arn:aws:s3:::<data-source-bucket>",
              "inclusionPrefixes": ["<folder-path>"]
          }
      },
      "name": "multimodal_data_source",
      "description": "Data source with multimodal content",
      "dataDeletionPolicy": "RETAIN"
  }
  ```

  BDA 구문 분석 접근 방식의 경우 다음 구성을 사용합니다.

  ```
  {
      "dataSourceConfiguration": {
          "type": "S3",
          "s3Configuration": {
              "bucketArn": "arn:aws:s3:::<data-source-bucket>",
              "inclusionPrefixes": ["<folder-path>"]
          }
      },
      "name": "multimodal_data_source_bda",
      "description": "Data source with BDA multimodal parsing",
      "dataDeletionPolicy": "RETAIN",
      "vectorIngestionConfiguration": {
          "parsingConfiguration": {
              "bedrockDataAutomationConfiguration": {
                  "parsingModality": "MULTIMODAL"
              }
          }
      }
  }
  ```

------

## 수집 작업 시작
<a name="kb-multimodal-start-ingestion"></a>

데이터 소스를 추가한 후 수집 작업을 시작하여 멀티모달 콘텐츠를 처리하고 인덱싱합니다.

------
#### [ Console ]

**콘솔에서 수집을 시작하려면**

1. 데이터 소스 세부 정보 페이지에서 **동기화**를 선택합니다.

1. 데이터 소스 페이지에서 동기화 상태를 모니터링합니다. 멀티모달 파일의 크기와 수에 따라 수집에 몇 분 정도 걸릴 수 있습니다.

1. 동기화가 성공적으로 완료되면 멀티모달 콘텐츠를 쿼리할 준비가 된 것입니다.

------
#### [ CLI ]

**를 사용하여 수집을 시작하려면 AWS CLI**

1. 수집 작업을 시작합니다. [https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html) 요청 전송:

   ```
   aws bedrock-agent start-ingestion-job \
   --knowledge-base-id <knowledge-base-id> \
   --data-source-id <data-source-id>
   ```

   자리 표시자를 다음으로 바꿉니다.
   + `<knowledge-base-id>` - 지식 기반 생성의 ID
   + `<data-source-id>` - 데이터 소스 생성의 ID

1. 를 사용하여 수집 작업 상태를 모니터링합니다[https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_GetIngestionJob.html](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_GetIngestionJob.html).

------

## 데이터 소스 삭제 후 재동기화
<a name="kb-multimodal-resync-after-deletion"></a>

데이터 소스를 삭제하고 지식 기반에서 해당 콘텐츠를 제거하려면 지식 기반을 명시적으로 다시 동기화해야 합니다.

**삭제된 데이터 소스 콘텐츠를 제거하려면**

1. 콘솔 또는 [https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_DeleteDataSource.html](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_DeleteDataSource.html) API를 사용하여 데이터 소스를 삭제합니다.

1. 나머지 데이터 소스에서 새 수집 작업을 시작하여 벡터 데이터베이스를 업데이트하고 삭제된 데이터 소스에서 콘텐츠를 제거합니다.

1. 쿼리가 삭제된 데이터 소스의 결과를 더 이상 반환하지 않는지 확인합니다.

**참고**  
다시 동기화하지 않으면 데이터 소스가 더 이상 존재하지 않더라도 삭제된 데이터 소스의 콘텐츠가 검색 결과에 계속 표시됩니다.