選擇您的多模式處理方法 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

選擇您的多模式處理方法

Amazon Bedrock 知識庫提供兩種處理多模態內容的方法:用於視覺相似性搜尋的 Nova 多模態內嵌,以及用於以文字為基礎的多媒體內容處理之 Bedrock 資料自動化 (BDA)。如果您的輸入模式是影像,但不適用於音訊或視訊,您也可以使用基礎模型做為剖析器。

本節說明使用 Nova Multimodal Embeddings 和 BDA 作為多模式內容的處理方法。每種方法都針對不同的使用案例和查詢模式進行最佳化。

多模式處理方法

下表顯示 Nova Multimodal Embeddings 和 BDA 之間的比較,用於處理多模式內容。

處理方法比較
特性 Nova 多模態內嵌 Bedrock 資料自動化 (BDA)
處理方法 在沒有中繼文字轉換的情況下產生內嵌 將多媒體轉換為文字,然後建立內嵌
支援的查詢類型 文字查詢或影像查詢 僅限文字查詢
主要使用案例 視覺相似性搜尋、產品比對、影像探索 語音轉錄、文字搜尋、內容分析
RAG 功能 僅限文字內容 完整RetrieveAndGenerate支援
儲存需求 需要多模態儲存目的地 多模態儲存目的地是選用的,但如果未指定,則 BDA 只會處理文字資料。對於非文字輸入,您必須指定多模式儲存目的地。

區域可用性

區域可用性
Nova 多模態內嵌 Bedrock 資料自動化 (BDA)
僅限美國東部 (維吉尼亞北部)
  • 美國西部 (奧勒岡)

  • 美國東部 (維吉尼亞北部)

  • 歐洲 (法蘭克福)

  • 歐洲 (倫敦)

  • 歐洲 (愛爾蘭)

  • 亞太地區 (孟買)

  • 亞太地區 (悉尼)

  • AWSGovCloud (美國西部)

依內容類型選擇條件

使用此決策矩陣,根據您的內容和使用案例需求選擇適當的處理方法:

注意

如果您使用 BDA 剖析器搭配 Amazon Nova Multimodal Embeddings 模型,內嵌模型會像文字內嵌模型一樣運作。使用多模態內容時,根據您的使用案例,使用其中一種處理方法來獲得最佳結果。

依內容類型處理方法建議
內容類型 Nova 多模態內嵌 Bedrock 資料自動化 (BDA)
產品目錄和映像 建議 - 啟用視覺相似度比對和影像型查詢 有限 - 僅透過 OCR 擷取文字
會議錄音和通話 無法有意義的處理語音內容 建議 - 提供完整的語音轉錄和可搜尋的文字
訓練和教育影片 部分 - 處理視覺化內容,但錯過語音 建議 - 同時擷取語音文字記錄和視覺化描述
客戶支援錄音 不建議 - 無法有效處理語音內容 建議 - 建立完整的可搜尋對話文字記錄
技術圖表 建議 - 非常適合視覺相似性和模式比對 有限 - 擷取文字標籤,但錯過視覺關係

支援的檔案類型和資料來源

支援的檔案類型取決於您選擇的處理方法:

透過處理方法支援的檔案類型
檔案類型 Nova 多模態內嵌 Bedrock 資料自動化 (BDA)
映像 .png、.jpg、.jpeg、.gif、.webp .png、.jpg、.jpeg
音訊 .mp3、.ogg、.wav .amr、.flac、.m4a、.mp3、.ogg、.wav
影片 .mp4、.mov、.mkv、.webm、.flv、.mpeg、.mpg、.wmv、.3gp .mp4、.mov
文件 以文字處理 .pdf (加上影像中的文字擷取)
支援的資料來源

下列資料來源支援多模態內容:

  • Amazon S3:對所有多模態檔案類型的完整支援

  • 自訂資料來源:支援最多 10MB base64 編碼的內嵌內容

重要

多模式擷取目前僅適用於 Amazon S3 資料來源。其他資料來源 (Confluence、SharePoint、Salesforce、Web Crawler) 不會在擷取期間處理多模式檔案。這些檔案會略過,且不適用於多模式查詢。

功能和限制

Nova 多模式內嵌

主要功能:

  • 原生多模態處理會保留原始內容格式,以獲得最佳視覺相似性比對

  • 以映像為基礎的查詢可讓使用者上傳映像並尋找視覺上相似的內容

  • 產品目錄、視覺化搜尋和內容探索應用程式的卓越效能

限制:

  • 無法有效地處理語音或音訊內容 - 無法搜尋口語資訊

  • RetrieveAndGenerate 和 重新排名功能僅限於文字內容

  • 需要專用多模態儲存目的地的組態

Bedrock 資料自動化 (BDA)

主要功能:

  • 使用自動語音辨識 (ASR) 技術的全面語音轉錄

  • 視覺化內容分析可產生影像和影片場景的描述性文字

  • 完整RetrieveAndGenerate支援可跨所有內容啟用完整的 RAG 功能

  • 文字型搜尋可在所有多媒體內容類型中一致運作

限制:

  • 在沒有 Nova 多模式內嵌的情況下使用時,不支援以映像為基礎的查詢 - 所有搜尋都必須使用文字輸入

  • 無法執行視覺相似度比對或image-to-image搜尋

  • 由於內容轉換需求,擷取處理時間較長

  • 相較於 Nova 多模式內嵌,支援較少的多媒體檔案格式

語音內容處理

Nova Multimodal Embeddings 無法有效地處理音訊或影片檔案中的語音內容。如果您的多媒體內容包含使用者搜尋所需的重要口語資訊,請選擇 BDA 方法,以確保完整轉錄和可搜尋性。