기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
멀티모달 콘텐츠를 위한 지식 기반 구축
Amazon Bedrock 지식 기반은 이미지, 오디오 및 비디오 파일을 포함한 멀티모달 콘텐츠를 지원합니다. 이미지를 쿼리로 사용하여 검색하고, 시각적으로 유사한 콘텐츠를 검색하고, 기존 텍스트 문서와 함께 멀티미디어 파일을 처리할 수 있습니다. 이 기능을 사용하면 조직 전체에 저장된 독립 실행형 이미지, 오디오 레코딩, 비디오 파일 등 다양한 데이터 유형에서 인사이트를 추출할 수 있습니다.
Amazon Bedrock 지식 기반을 사용하면 텍스트, 시각적 객체 및 오디오 콘텐츠에서 정보를 인덱싱하고 검색할 수 있습니다. 이제 조직은 이미지를 사용하여 제품 카탈로그를 검색하고, 교육 비디오에서 특정 순간을 찾고, 고객 지원 통화 녹음에서 관련 세그먼트를 검색할 수 있습니다.
리전별 가용성
멀티모달 처리 접근 방식은 리전별로 가용성이 다릅니다. 자세한 내용은 리전별 가용성섹션을 참조하세요.
특징 및 기능
멀티모달 지식 기반은 다음과 같은 주요 기능을 제공합니다.
- 이미지 기반 쿼리
-
Nova 멀티모달 임베딩을 사용할 때 이미지를 검색 쿼리로 제출하여 시각적으로 유사한 콘텐츠를 찾습니다. 제품 매칭, 시각적 유사성 검색 및 이미지 검색을 지원합니다.
- 오디오 콘텐츠 검색
-
텍스트 쿼리를 사용하여 오디오 파일을 검색합니다. 타임스탬프 참조가 있는 레코딩에서 특정 세그먼트를 검색합니다. 오디오 트랜스크립션을 사용하면 회의, 통화, 팟캐스트 등 음성 콘텐츠에서 텍스트 기반 검색을 사용할 수 있습니다.
- 비디오 세그먼트 추출
-
텍스트 쿼리를 사용하여 비디오 파일 내에서 특정 순간을 찾습니다. 정확한 타임스탬프가 있는 비디오 세그먼트를 검색합니다.
- 교차 모달 검색
-
텍스트 문서, 이미지, 오디오 및 비디오를 비롯한 다양한 데이터 유형을 검색합니다. 원본 형식에 관계없이 관련 콘텐츠를 검색합니다.
- 타임스탬프가 있는 소스 참조
-
검색 결과에는 오디오 및 비디오에 대한 임시 메타데이터가 있는 원본 파일에 대한 참조가 포함됩니다. 멀티미디어 콘텐츠 내의 관련 세그먼트에 대한 정확한 탐색을 활성화합니다.
- 유연한 처리 옵션
-
시각적 유사성을 위한 네이티브 멀티모달 임베딩 또는 음성 기반 콘텐츠에 대한 텍스트 변환 중에서 선택합니다. 콘텐츠 특성 및 애플리케이션 요구 사항에 따라 처리 접근 방식을 구성합니다.
작동 방식
멀티모달 지식 기반은 다양한 데이터 유형을 적절하게 처리하는 다단계 파이프라인을 통해 콘텐츠를 처리하고 검색합니다.
수집 및 처리
-
데이터 소스 연결: 지식 기반을 텍스트 문서, 이미지, 오디오 파일 및 비디오 파일이 포함된 Amazon S3 버킷 또는 사용자 지정 데이터 소스에 연결합니다.
-
파일 유형 감지: 시스템은 확장명으로 각 파일 유형을 식별하여 적절한 처리 파이프라인으로 라우팅합니다.
-
콘텐츠 처리: 구성에 따라 파일은 다음 두 가지 방법 중 하나를 사용하여 처리됩니다.
-
Nova 멀티모달 임베딩: 시각적 및 오디오 유사성 일치를 위한 기본 형식을 보존합니다. 이미지, 오디오 및 비디오는 텍스트로 변환하지 않고 직접 임베디드됩니다.
-
Bedrock Data Automation(BDA): 멀티미디어를 텍스트 표현으로 변환합니다. 오디오는 자동 음성 인식(ASR)을 사용하여 트랜스크립션되고, 비디오는 장면 요약 및 트랜스크립트를 추출하기 위해 처리되며, 이미지는 OCR 및 시각적 콘텐츠 추출을 거칩니다.
-
-
임베딩 생성: 처리된 콘텐츠는 선택한 임베딩 모델을 사용하여 벡터 임베딩으로 변환됩니다. 이러한 임베딩은 의미론적 의미를 포착하고 유사성 기반 검색을 활성화합니다.
-
벡터 스토리지: 임베딩은 파일 참조, 타임스탬프(오디오 및 비디오용) 및 콘텐츠 유형 정보를 포함한 메타데이터와 함께 구성된 벡터 데이터베이스에 저장됩니다.
-
멀티모달 스토리지(선택 사항): 구성된 경우 원본 멀티미디어 파일이 안정적인 검색을 위해 전용 멀티모달 스토리지 대상으로 복사되므로 소스 파일이 수정되거나 삭제되더라도 가용성이 보장됩니다.
쿼리 및 검색
-
쿼리 처리: 사용자 쿼리(텍스트 또는 이미지)는 수집 중에 사용된 것과 동일한 임베딩 모델을 사용하여 임베딩으로 변환됩니다.
-
유사성 검색: 쿼리 임베딩을 벡터 데이터베이스에 저장된 임베딩과 비교하여 가장 관련성이 높은 콘텐츠를 식별합니다.
-
결과 검색: 시스템은 다음을 포함한 메타데이터와 일치하는 콘텐츠를 반환합니다.
-
소스 URI(원본 파일 위치)
-
타임스탬프 메타데이터(오디오 및 비디오 세그먼트용)
-
콘텐츠 유형 및 양식 정보
-
-
응답 생성(선택 사항):
RetrieveAndGenerate요청의 경우 검색된 콘텐츠가 파운데이션 모델로 전달되어 컨텍스트와 관련된 텍스트 응답을 생성합니다. 이는 BDA 처리를 사용하거나 지식 기반에 텍스트 콘텐츠가 포함된 경우 지원됩니다.
중요
시스템은 오디오 및 비디오 콘텐츠에 대한 타임스탬프 메타데이터가 있는 전체 파일에 대한 참조를 반환합니다. 애플리케이션은 제공된 시작 및 종료 타임스탬프를 기반으로 특정 세그먼트를 추출하고 재생해야 합니다. 는 이를 자동으로 AWS Management 콘솔처리합니다.