데이터 소스 추가 및 수집 시작 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 소스 추가 및 수집 시작

지식 기반을 생성한 후 멀티모달 콘텐츠가 포함된 데이터 소스를 추가하고 수집 작업을 시작하여 콘텐츠를 처리하고 인덱싱합니다.

데이터 소스 삭제 동작

삭제 정책이 RETAIN으로 설정된 데이터 소스를 삭제하면 수집된 콘텐츠는 벡터 데이터베이스에 남아 검색에 계속 사용됩니다. 콘텐츠는 데이터 소스를 삭제한 후 지식 기반을 명시적으로 동기화하는 경우에만 제거됩니다. 기본 DELETE 정책이 있는 데이터 소스는 삭제 중에 벡터 데이터베이스 및 보충 스토리지에서 콘텐츠를 자동으로 제거합니다. 이렇게 하면 소스 파일이 수정되거나 삭제되더라도 지식 기반이 계속 작동하지만 RETAIN 정책을 사용하여 삭제된 데이터 소스가 여전히 검색 결과에 기여할 수 있다는 점에 유의해야 합니다.

데이터 소스 추가

지식 기반에 멀티모달 콘텐츠가 포함된 데이터 소스를 추가합니다.

중요

BDA 데이터 소스의 경우: 오디오/비디오 지원 시작 후 생성된 데이터 소스만 오디오 및 비디오 파일을 처리합니다. 이 기능 시작 전에 생성된 기존 BDA 데이터 소스는 오디오 및 비디오 파일을 계속 건너뜁니다. 기존 지식 기반에 대한 오디오/비디오 처리를 활성화하려면 새 데이터 소스를 생성합니다.

Console
콘솔에서 데이터 소스를 추가하려면
  1. 지식 기반 세부 정보 페이지에서 데이터 소스 추가를 선택합니다.

  2. 데이터 소스 유형으로 Amazon S3를 선택합니다.

  3. 데이터 소스의 이름과 설명을 입력합니다.

  4. 버킷 URI와 포함 접두사를 제공하여 멀티모달 파일이 포함된 Amazon S3 위치를 구성합니다.

  5. 콘텐츠 구문 분석 및 청킹에서 구문 분석 및 청킹 방법을 구성합니다.

    참고

    텍스트 임베딩 모델은 텍스트 전용 콘텐츠로 검색을 제한하지만 Amazon Bedrock 데이터 자동화(오디오, 비디오 및 이미지용) 또는 파운데이션 모델을 파서(이미지용)로 선택하여 텍스트를 통한 멀티모달 검색을 활성화할 수 있습니다.

    다음 세 가지 구문 분석 전략 중에서 선택합니다.

    • Bedrock 기본 구문 분석기: 텍스트 전용 구문 분석에 권장됩니다. 이 구문 분석기는 멀티모달 콘텐츠를 무시하며 일반적으로 멀티모달 임베딩 모델에 사용됩니다.

    • Bedrock Data Automation as parser: 멀티모달 콘텐츠를 구문 분석하고 텍스트로 저장하여 PDFs, 이미지, 오디오 및 비디오 파일을 지원합니다.

    • 파서로서의 파운데이션 모델: 이미지 및 구조화된 문서에 대한 고급 구문 분석을 제공하여 PDFs, 이미지, 테이블 및 시각적으로 풍부한 문서를 지원합니다.

  6. 데이터 소스 추가를 선택하여 데이터 소스를 생성합니다.

CLI
를 사용하여 데이터 소스를 추가하려면AWS CLI
  • 멀티모달 콘텐츠에 대한 데이터 소스를 생성합니다. CreateDataSource 요청 전송:

    aws bedrock-agent create-data-source \ --knowledge-base-id <knowledge-base-id> \ --cli-input-json file://ds-multimodal.json

    Nova 멀티모달 임베딩(특수 구문 분석 구성 필요 없음)의 경우 다음 ds-multimodal.json 콘텐츠를 사용합니다.

    { "dataSourceConfiguration": { "type": "S3", "s3Configuration": { "bucketArn": "arn:aws:s3:::<data-source-bucket>", "inclusionPrefixes": ["<folder-path>"] } }, "name": "multimodal_data_source", "description": "Data source with multimodal content", "dataDeletionPolicy": "RETAIN" }

    BDA 구문 분석 접근 방식의 경우 다음 구성을 사용합니다.

    { "dataSourceConfiguration": { "type": "S3", "s3Configuration": { "bucketArn": "arn:aws:s3:::<data-source-bucket>", "inclusionPrefixes": ["<folder-path>"] } }, "name": "multimodal_data_source_bda", "description": "Data source with BDA multimodal parsing", "dataDeletionPolicy": "RETAIN", "vectorIngestionConfiguration": { "parsingConfiguration": { "bedrockDataAutomationConfiguration": { "parsingModality": "MULTIMODAL" } } } }

수집 작업 시작

데이터 소스를 추가한 후 수집 작업을 시작하여 멀티모달 콘텐츠를 처리하고 인덱싱합니다.

Console
콘솔에서 수집을 시작하려면
  1. 데이터 소스 세부 정보 페이지에서 동기화를 선택합니다.

  2. 데이터 소스 페이지에서 동기화 상태를 모니터링합니다. 멀티모달 파일의 크기와 수에 따라 수집에 몇 분 정도 걸릴 수 있습니다.

  3. 동기화가 성공적으로 완료되면 멀티모달 콘텐츠를 쿼리할 준비가 된 것입니다.

CLI
를 사용하여 수집을 시작하려면AWS CLI
  1. 수집 작업을 시작합니다. StartIngestionJob 요청 전송:

    aws bedrock-agent start-ingestion-job \ --knowledge-base-id <knowledge-base-id> \ --data-source-id <data-source-id>

    자리 표시자를 다음으로 바꿉니다.

    • <knowledge-base-id> - 지식 기반 생성의 ID

    • <data-source-id> - 데이터 소스 생성의 ID

  2. 를 사용하여 수집 작업 상태를 모니터링합니다GetIngestionJob.

데이터 소스 삭제 후 재동기화

데이터 소스를 삭제하고 지식 기반에서 해당 콘텐츠를 제거하려면 지식 기반을 명시적으로 다시 동기화해야 합니다.

삭제된 데이터 소스 콘텐츠를 제거하려면
  1. 콘솔 또는 DeleteDataSource API를 사용하여 데이터 소스를 삭제합니다.

  2. 나머지 데이터 소스에서 새 수집 작업을 시작하여 벡터 데이터베이스를 업데이트하고 삭제된 데이터 소스에서 콘텐츠를 제거합니다.

  3. 쿼리가 삭제된 데이터 소스의 결과를 더 이상 반환하지 않는지 확인합니다.

참고

다시 동기화하지 않으면 데이터 소스가 더 이상 존재하지 않더라도 삭제된 데이터 소스의 콘텐츠가 검색 결과에 계속 표시됩니다.