멀티모달 콘텐츠를 위한 지식 기반 구축 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

멀티모달 콘텐츠를 위한 지식 기반 구축

Amazon Bedrock 지식 기반은 이미지, 오디오 및 비디오 파일을 포함한 멀티모달 콘텐츠를 지원합니다. 이미지를 쿼리로 사용하여 검색하고, 시각적으로 유사한 콘텐츠를 검색하고, 기존 텍스트 문서와 함께 멀티미디어 파일을 처리할 수 있습니다. 이 기능을 사용하면 조직 전체에 저장된 독립 실행형 이미지, 오디오 레코딩, 비디오 파일 등 다양한 데이터 유형에서 인사이트를 추출할 수 있습니다.

Amazon Bedrock 지식 기반을 사용하면 텍스트, 시각적 객체 및 오디오 콘텐츠에서 정보를 인덱싱하고 검색할 수 있습니다. 이제 조직은 이미지를 사용하여 제품 카탈로그를 검색하고, 교육 비디오에서 특정 순간을 찾고, 고객 지원 통화 녹음에서 관련 세그먼트를 검색할 수 있습니다.

리전별 가용성

멀티모달 처리 접근 방식은 리전별로 가용성이 다릅니다. 자세한 내용은 리전별 가용성섹션을 참조하세요.

특징 및 기능

멀티모달 지식 기반은 다음과 같은 주요 기능을 제공합니다.

이미지 기반 쿼리

Nova 멀티모달 임베딩을 사용할 때 이미지를 검색 쿼리로 제출하여 시각적으로 유사한 콘텐츠를 찾습니다. 제품 매칭, 시각적 유사성 검색 및 이미지 검색을 지원합니다.

오디오 콘텐츠 검색

텍스트 쿼리를 사용하여 오디오 파일을 검색합니다. 타임스탬프 참조가 있는 레코딩에서 특정 세그먼트를 검색합니다. 오디오 트랜스크립션을 사용하면 회의, 통화, 팟캐스트 등 음성 콘텐츠에서 텍스트 기반 검색을 사용할 수 있습니다.

비디오 세그먼트 추출

텍스트 쿼리를 사용하여 비디오 파일 내에서 특정 순간을 찾습니다. 정확한 타임스탬프가 있는 비디오 세그먼트를 검색합니다.

교차 모달 검색

텍스트 문서, 이미지, 오디오 및 비디오를 비롯한 다양한 데이터 유형을 검색합니다. 원본 형식에 관계없이 관련 콘텐츠를 검색합니다.

타임스탬프가 있는 소스 참조

검색 결과에는 오디오 및 비디오에 대한 임시 메타데이터가 있는 원본 파일에 대한 참조가 포함됩니다. 멀티미디어 콘텐츠 내의 관련 세그먼트에 대한 정확한 탐색을 활성화합니다.

유연한 처리 옵션

시각적 유사성을 위한 네이티브 멀티모달 임베딩 또는 음성 기반 콘텐츠에 대한 텍스트 변환 중에서 선택합니다. 콘텐츠 특성 및 애플리케이션 요구 사항에 따라 처리 접근 방식을 구성합니다.

작동 방식

멀티모달 지식 기반은 다양한 데이터 유형을 적절하게 처리하는 다단계 파이프라인을 통해 콘텐츠를 처리하고 검색합니다.

수집 및 처리
  1. 데이터 소스 연결: 지식 기반을 텍스트 문서, 이미지, 오디오 파일 및 비디오 파일이 포함된 Amazon S3 버킷 또는 사용자 지정 데이터 소스에 연결합니다.

  2. 파일 유형 감지: 시스템은 확장명으로 각 파일 유형을 식별하여 적절한 처리 파이프라인으로 라우팅합니다.

  3. 콘텐츠 처리: 구성에 따라 파일은 다음 두 가지 방법 중 하나를 사용하여 처리됩니다.

    • Nova 멀티모달 임베딩: 시각적 및 오디오 유사성 일치를 위한 기본 형식을 보존합니다. 이미지, 오디오 및 비디오는 텍스트로 변환하지 않고 직접 임베디드됩니다.

    • Bedrock Data Automation(BDA): 멀티미디어를 텍스트 표현으로 변환합니다. 오디오는 자동 음성 인식(ASR)을 사용하여 트랜스크립션되고, 비디오는 장면 요약 및 트랜스크립트를 추출하기 위해 처리되며, 이미지는 OCR 및 시각적 콘텐츠 추출을 거칩니다.

  4. 임베딩 생성: 처리된 콘텐츠는 선택한 임베딩 모델을 사용하여 벡터 임베딩으로 변환됩니다. 이러한 임베딩은 의미론적 의미를 포착하고 유사성 기반 검색을 활성화합니다.

  5. 벡터 스토리지: 임베딩은 파일 참조, 타임스탬프(오디오 및 비디오용) 및 콘텐츠 유형 정보를 포함한 메타데이터와 함께 구성된 벡터 데이터베이스에 저장됩니다.

  6. 멀티모달 스토리지(선택 사항): 구성된 경우 원본 멀티미디어 파일이 안정적인 검색을 위해 전용 멀티모달 스토리지 대상으로 복사되므로 소스 파일이 수정되거나 삭제되더라도 가용성이 보장됩니다.

쿼리 및 검색
  1. 쿼리 처리: 사용자 쿼리(텍스트 또는 이미지)는 수집 중에 사용된 것과 동일한 임베딩 모델을 사용하여 임베딩으로 변환됩니다.

  2. 유사성 검색: 쿼리 임베딩을 벡터 데이터베이스에 저장된 임베딩과 비교하여 가장 관련성이 높은 콘텐츠를 식별합니다.

  3. 결과 검색: 시스템은 다음을 포함한 메타데이터와 일치하는 콘텐츠를 반환합니다.

    • 소스 URI(원본 파일 위치)

    • 타임스탬프 메타데이터(오디오 및 비디오 세그먼트용)

    • 콘텐츠 유형 및 양식 정보

  4. 응답 생성(선택 사항): RetrieveAndGenerate 요청의 경우 검색된 콘텐츠가 파운데이션 모델로 전달되어 컨텍스트와 관련된 텍스트 응답을 생성합니다. 이는 BDA 처리를 사용하거나 지식 기반에 텍스트 콘텐츠가 포함된 경우 지원됩니다.

중요

시스템은 오디오 및 비디오 콘텐츠에 대한 타임스탬프 메타데이터가 있는 전체 파일에 대한 참조를 반환합니다. 애플리케이션은 제공된 시작 및 종료 타임스탬프를 기반으로 특정 세그먼트를 추출하고 재생해야 합니다. 는 이를 자동으로 AWS Management 콘솔처리합니다.