데이터 소스 추가 및 수집 시작

지식 기반을 생성한 후 멀티모달 콘텐츠가 포함된 데이터 소스를 추가하고 수집 작업을 시작하여 콘텐츠를 처리하고 인덱싱합니다.

데이터 소스 삭제 동작

삭제 정책이 RETAIN으로 설정된 데이터 소스를 삭제하면 수집된 콘텐츠가 벡터 데이터베이스에 남아 검색에 계속 사용됩니다. 콘텐츠는 데이터 소스를 삭제한 후 지식 기반을 명시적으로 동기화하는 경우에만 제거됩니다. 기본 DELETE 정책이 있는 데이터 소스는 삭제 중에 벡터 데이터베이스 및 보충 스토리지에서 콘텐츠를 자동으로 제거합니다. 이렇게 하면 소스 파일이 수정되거나 삭제되더라도 지식 기반이 계속 작동하지만 RETAIN 정책을 사용하여 삭제된 데이터 소스가 여전히 검색 결과에 기여할 수 있다는 점에 유의해야 합니다.

데이터 소스 추가

지식 기반에 멀티모달 콘텐츠가 포함된 데이터 소스를 추가합니다.

중요

BDA 데이터 소스의 경우: 오디오/비디오 지원 시작 후 생성된 데이터 소스만 오디오 및 비디오 파일을 처리합니다. 이 기능을 시작하기 전에 생성된 기존 BDA 데이터 소스는 오디오 및 비디오 파일을 계속 건너뜁니다. 기존 지식 기반에 대한 오디오/비디오 처리를 활성화하려면 새 데이터 소스를 생성합니다.

Console

콘솔에서 데이터 소스를 추가하려면

지식 기반 세부 정보 페이지에서 데이터 소스 추가를 선택합니다.
Amazon S3를 데이터 소스 유형으로 선택합니다.
데이터 소스의 이름과 설명을 입력합니다.
버킷 URI와 포함 접두사를 제공하여 멀티모달 파일이 포함된 Amazon S3 위치를 구성합니다.
콘텐츠 구문 분석 및 청킹에서 구문 분석 및 청킹 방법을 구성합니다.

참고
텍스트 임베딩 모델은 텍스트 전용 콘텐츠로 검색을 제한하지만 Amazon Bedrock 데이터 자동화(오디오, 비디오 및 이미지용) 또는 파운데이션 모델을 파서(이미지용)로 선택하여 텍스트를 통한 멀티모달 검색을 활성화할 수 있습니다.

다음 세 가지 구문 분석 전략 중에서 선택합니다.
- Bedrock 기본 구문 분석기: 텍스트 전용 구문 분석에 권장됩니다. 이 구문 분석기는 멀티모달 콘텐츠를 무시하며 일반적으로 멀티모달 임베딩 모델에 사용됩니다.
- Bedrock Data Automation as parser: 멀티모달 콘텐츠를 구문 분석하고 텍스트로 저장하여 PDFs, 이미지, 오디오 및 비디오 파일을 지원합니다.
- 파서로서의 파운데이션 모델: 이미지 및 구조화된 문서에 대한 고급 구문 분석을 제공하여 PDFs, 이미지, 테이블 및 시각적으로 풍부한 문서를 지원합니다.
데이터 소스 추가를 선택하여 데이터 소스를 생성합니다.

CLI

를 사용하여 데이터 소스를 추가하려면 AWS CLI

멀티모달 콘텐츠에 대한 데이터 소스를 생성합니다. CreateDataSource 요청 전송:


aws bedrock-agent create-data-source \
--knowledge-base-id <knowledge-base-id> \
--cli-input-json file://ds-multimodal.json

Nova 멀티모달 임베딩(특수 구문 분석 구성 필요 없음)의 경우 다음 ds-multimodal.json 콘텐츠를 사용합니다.


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source",
    "description": "Data source with multimodal content",
    "dataDeletionPolicy": "RETAIN"
}

BDA 구문 분석 접근 방식의 경우 다음 구성을 사용합니다.


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source_bda",
    "description": "Data source with BDA multimodal parsing",
    "dataDeletionPolicy": "RETAIN",
    "vectorIngestionConfiguration": {
        "parsingConfiguration": {
            "bedrockDataAutomationConfiguration": {
                "parsingModality": "MULTIMODAL"
            }
        }
    }
}

수집 작업 시작

데이터 소스를 추가한 후 수집 작업을 시작하여 멀티모달 콘텐츠를 처리하고 인덱싱합니다.

데이터 소스 삭제 후 재동기화

데이터 소스를 삭제하고 지식 기반에서 해당 콘텐츠를 제거하려면 지식 기반을 명시적으로 다시 동기화해야 합니다.

삭제된 데이터 소스 콘텐츠를 제거하려면

콘솔 또는 DeleteDataSource API를 사용하여 데이터 소스를 삭제합니다.
나머지 데이터 소스에서 새 수집 작업을 시작하여 벡터 데이터베이스를 업데이트하고 삭제된 데이터 소스에서 콘텐츠를 제거합니다.
쿼리가 삭제된 데이터 소스의 결과를 더 이상 반환하지 않는지 확인합니다.

참고

다시 동기화하지 않으면 데이터 소스가 더 이상 존재하지 않더라도 삭제된 데이터 소스의 콘텐츠가 검색 결과에 계속 표시됩니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

지식 기반 생성

테스트 및 쿼리 지식 기반