멀티모달 처리 접근 방식 선택 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

멀티모달 처리 접근 방식 선택

Amazon Bedrock 지식 기반은 멀티모달 콘텐츠를 처리하기 위한 두 가지 접근 방식, 즉 시각적 유사성 검색을 위한 Nova Multimodal Embeddings와 멀티미디어 콘텐츠의 텍스트 기반 처리를 위한 Bedrock Data Automation(BDA)을 제공합니다. 입력 양식이 오디오 또는 비디오용이 아닌 이미지인 경우 파운데이션 모델을 파서로 사용할 수도 있습니다.

이 섹션에서는 멀티모달 콘텐츠에 대한 처리 접근 방식으로 Nova 멀티모달 임베딩 및 BDA를 사용하는 방법을 설명합니다. 각 접근 방식은 다양한 사용 사례 및 쿼리 패턴에 최적화되어 있습니다.

멀티모달 처리 접근 방식

다음 표는 멀티모달 콘텐츠를 처리하기 위한 Nova 멀티모달 임베딩과 BDA 간의 비교를 보여줍니다.

처리 접근 방식 비교
기능 Nova 멀티모달 임베딩 Bedrock 데이터 자동화(BDA)
처리 방법 중간 텍스트 변환 없이 임베딩 생성 멀티미디어를 텍스트로 변환한 다음 임베딩을 생성합니다.
지원되는 쿼리 유형 텍스트 쿼리 또는 이미지 쿼리 텍스트 쿼리만
기본 사용 사례 시각적 유사성 검색, 제품 매칭, 이미지 검색 음성 트랜스크립션, 텍스트 기반 검색, 콘텐츠 분석
RAG 기능 텍스트 콘텐츠로만 제한됨 전체 RetrieveAndGenerate 지원
스토리지 요구 사항 멀티모달 스토리지 대상 필요 멀티모달 스토리지 대상은 선택 사항이지만 지정하지 않으면 BDA에서 텍스트 데이터만 처리됩니다. 텍스트가 아닌 입력의 경우 멀티모달 스토리지 대상을 지정해야 합니다.

리전별 가용성

리전별 가용성
Nova 멀티모달 임베딩 Bedrock 데이터 자동화(BDA)
미국 동부(버지니아 북부)에만 해당
  • 미국 서부(오리건)

  • 미국 동부(버지니아 북부)

  • 유럽(프랑크푸르트)

  • 유럽(런던)

  • 유럽(아일랜드)

  • 아시아 태평양(뭄바이)

  • 아시아 태평양(시드니)

  • AWSGovCloud(미국 서부)

콘텐츠 유형별 선택 기준

이 결정 매트릭스를 사용하여 콘텐츠 및 사용 사례 요구 사항에 따라 적절한 처리 접근 방식을 선택합니다.

참고

Amazon Nova Multimodal Embeddings 모델과 함께 BDA 구문 분석기를 사용하는 경우 임베딩 모델은 텍스트 임베딩 모델처럼 작동합니다. 멀티모달 콘텐츠로 작업할 때는 사용 사례에 따라 최상의 결과를 얻으려면 처리 접근 방식 중 하나를 사용합니다.

콘텐츠 유형별 처리 접근 방식 권장 사항
콘텐츠 유형 Nova 멀티모달 임베딩 Bedrock 데이터 자동화(BDA)
제품 카탈로그 및 이미지 권장 - 시각적 유사성 일치 및 이미지 기반 쿼리를 활성화합니다. 제한적 - OCR을 통해서만 텍스트 추출
회의 녹음 및 통화 스피치 콘텐츠를 의미 있게 처리할 수 없음 권장 - 전체 음성 트랜스크립션 및 검색 가능한 텍스트 제공
훈련 및 교육 비디오 부분 - 시각적 콘텐츠를 처리하지만 음성을 놓침 권장 - 스피치 트랜스크립트와 시각적 설명을 모두 캡처합니다.
고객 지원 레코딩 권장되지 않음 - 음성 콘텐츠를 효과적으로 처리할 수 없음 권장 - 검색 가능한 전체 대화 기록을 생성합니다.
기술 다이어그램 및 차트 권장 - 시각적 유사성 및 패턴 일치에 적합 제한적 - 텍스트 레이블을 추출하지만 시각적 관계를 놓침

지원되는 파일 유형 및 데이터 소스

지원되는 파일 유형은 선택한 처리 접근 방식에 따라 다릅니다.

처리 접근 방식을 통해 지원되는 파일 유형
파일 형식 Nova 멀티모달 임베딩 Bedrock 데이터 자동화(BDA)
이미지 .png, .jpg, .jpeg, .gif, .webp .png, .jpg, .jpeg
오디오 .mp3, .ogg, .wav .amr, .flac, .m4a, .mp3, .ogg, .wav
비디오 .mp4, .mov, .mkv, .webm, .flv, .mpeg, .mpg, .wmv, .3gp .mp4, .mov
문서 텍스트로 처리됨 .pdf(이미지에서 텍스트 추출 포함)
지원되는 데이터 소스

멀티모달 콘텐츠는 다음 데이터 소스에서 지원됩니다.

  • Amazon S3: 모든 멀티모달 파일 유형에 대한 전체 지원

  • 사용자 지정 데이터 소스: 최대 10MB base64 인코딩의 인라인 콘텐츠 지원

중요

다중 모달 검색은 현재 Amazon S3 데이터 소스에서만 사용할 수 있습니다. 다른 데이터 소스(Confluence, SharePoint, Salesforce, Web Crawler)는 수집 중에 멀티모달 파일을 처리하지 않습니다. 이러한 파일은 건너뛰고 멀티모달 쿼리에 사용할 수 없습니다.

기능 및 제한 사항

Nova 멀티모달 임베딩

주요 기능:

  • 네이티브 멀티모달 처리는 최적의 시각적 유사성 일치를 위해 원래 콘텐츠 형식을 보존합니다.

  • 이미지 기반 쿼리를 통해 사용자는 이미지를 업로드하고 시각적으로 유사한 콘텐츠를 찾을 수 있습니다.

  • 제품 카탈로그, 시각적 검색 및 콘텐츠 검색 애플리케이션을 위한 우수한 성능

제한 사항:

  • 음성 또는 오디오 콘텐츠를 효과적으로 처리할 수 없음 - 음성 정보를 검색할 수 없음

  • RetrieveAndGenerate 및 리랭크 기능은 텍스트 콘텐츠로만 제한됩니다.

  • 전용 멀티모달 스토리지 대상 구성 필요

Bedrock 데이터 자동화(BDA)

주요 기능:

  • 자동 음성 인식(ASR) 기술을 사용한 포괄적인 음성 트랜스크립션

  • 시각적 콘텐츠 분석은 이미지 및 비디오 장면에 대한 설명 텍스트를 생성합니다.

  • 전체 RetrieveAndGenerate 지원을 통해 모든 콘텐츠에서 완전한 RAG 기능 지원

  • 텍스트 기반 검색은 모든 멀티미디어 콘텐츠 유형에서 일관되게 작동합니다.

제한 사항:

  • Nova 멀티모달 임베딩 없이 사용할 경우 이미지 기반 쿼리를 지원하지 않음 - 모든 검색은 텍스트 입력을 사용해야 합니다.

  • 시각적 유사성 일치 또는 image-to-image 검색을 수행할 수 없음

  • 콘텐츠 변환 요구 사항으로 인한 수집 처리 시간 연장

  • Nova 멀티모달 임베딩에 비해 더 적은 멀티미디어 파일 형식 지원

음성 콘텐츠 처리

Nova 멀티모달 임베딩은 오디오 또는 비디오 파일의 음성 콘텐츠를 효과적으로 처리할 수 없습니다. 멀티미디어 콘텐츠에 사용자가 검색해야 하는 중요한 음성 정보가 포함된 경우 BDA 접근 방식을 선택하여 전체 트랜스크립션 및 검색 가능성을 보장합니다.