本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
選擇您的多模式處理方法
Amazon Bedrock 知識庫提供兩種處理多模態內容的方法:用於視覺相似性搜尋的 Nova 多模態內嵌,以及用於以文字為基礎的多媒體內容處理之 Bedrock 資料自動化 (BDA)。如果您的輸入模式是影像,但不適用於音訊或視訊,您也可以使用基礎模型做為剖析器。
本節說明使用 Nova Multimodal Embeddings 和 BDA 作為多模式內容的處理方法。每種方法都針對不同的使用案例和查詢模式進行最佳化。
多模式處理方法
下表顯示 Nova Multimodal Embeddings 和 BDA 之間的比較,用於處理多模式內容。
| 特性 | Nova 多模態內嵌 | Bedrock 資料自動化 (BDA) |
|---|---|---|
| 處理方法 | 在沒有中繼文字轉換的情況下產生內嵌 | 將多媒體轉換為文字,然後建立內嵌 |
| 支援的查詢類型 | 文字查詢或影像查詢 | 僅限文字查詢 |
| 主要使用案例 | 視覺相似性搜尋、產品比對、影像探索 | 語音轉錄、文字搜尋、內容分析 |
| RAG 功能 | 僅限文字內容 | 完整RetrieveAndGenerate支援 |
| 儲存需求 | 需要多模態儲存目的地 | 多模態儲存目的地是選用的,但如果未指定,則 BDA 只會處理文字資料。對於非文字輸入,您必須指定多模式儲存目的地。 |
區域可用性
| Nova 多模態內嵌 | Bedrock 資料自動化 (BDA) |
|---|---|
| 僅限美國東部 (維吉尼亞北部) |
|
依內容類型選擇條件
使用此決策矩陣,根據您的內容和使用案例需求選擇適當的處理方法:
注意
如果您使用 BDA 剖析器搭配 Amazon Nova Multimodal Embeddings 模型,內嵌模型會像文字內嵌模型一樣運作。使用多模態內容時,根據您的使用案例,使用其中一種處理方法來獲得最佳結果。
| 內容類型 | Nova 多模態內嵌 | Bedrock 資料自動化 (BDA) |
|---|---|---|
| 產品目錄和映像 | 建議 - 啟用視覺相似度比對和影像型查詢 | 有限 - 僅透過 OCR 擷取文字 |
| 會議錄音和通話 | 無法有意義的處理語音內容 | 建議 - 提供完整的語音轉錄和可搜尋的文字 |
| 訓練和教育影片 | 部分 - 處理視覺化內容,但錯過語音 | 建議 - 同時擷取語音文字記錄和視覺化描述 |
| 客戶支援錄音 | 不建議 - 無法有效處理語音內容 | 建議 - 建立完整的可搜尋對話文字記錄 |
| 技術圖表 | 建議 - 非常適合視覺相似性和模式比對 | 有限 - 擷取文字標籤,但錯過視覺關係 |
支援的檔案類型和資料來源
支援的檔案類型取決於您選擇的處理方法:
| 檔案類型 | Nova 多模態內嵌 | Bedrock 資料自動化 (BDA) |
|---|---|---|
| 映像 | .png、.jpg、.jpeg、.gif、.webp | .png、.jpg、.jpeg |
| 音訊 | .mp3、.ogg、.wav | .amr、.flac、.m4a、.mp3、.ogg、.wav |
| 影片 | .mp4、.mov、.mkv、.webm、.flv、.mpeg、.mpg、.wmv、.3gp | .mp4、.mov |
| 文件 | 以文字處理 | .pdf (加上影像中的文字擷取) |
支援的資料來源
下列資料來源支援多模態內容:
-
Amazon S3:對所有多模態檔案類型的完整支援
-
自訂資料來源:支援最多 10MB base64 編碼的內嵌內容
重要
多模式擷取目前僅適用於 Amazon S3 資料來源。其他資料來源 (Confluence、SharePoint、Salesforce、Web Crawler) 不會在擷取期間處理多模式檔案。這些檔案會略過,且不適用於多模式查詢。
功能和限制
- Nova 多模式內嵌
-
主要功能:
-
原生多模態處理會保留原始內容格式,以獲得最佳視覺相似性比對
-
以映像為基礎的查詢可讓使用者上傳映像並尋找視覺上相似的內容
-
產品目錄、視覺化搜尋和內容探索應用程式的卓越效能
限制:
-
無法有效地處理語音或音訊內容 - 無法搜尋口語資訊
-
RetrieveAndGenerate和 重新排名功能僅限於文字內容 -
需要專用多模態儲存目的地的組態
-
- Bedrock 資料自動化 (BDA)
-
主要功能:
-
使用自動語音辨識 (ASR) 技術的全面語音轉錄
-
視覺化內容分析可產生影像和影片場景的描述性文字
-
完整
RetrieveAndGenerate支援可跨所有內容啟用完整的 RAG 功能 -
文字型搜尋可在所有多媒體內容類型中一致運作
限制:
-
在沒有 Nova 多模式內嵌的情況下使用時,不支援以映像為基礎的查詢 - 所有搜尋都必須使用文字輸入
-
無法執行視覺相似度比對或image-to-image搜尋
-
由於內容轉換需求,擷取處理時間較長
-
相較於 Nova 多模式內嵌,支援較少的多媒體檔案格式
-
語音內容處理
Nova Multimodal Embeddings 無法有效地處理音訊或影片檔案中的語音內容。如果您的多媒體內容包含使用者搜尋所需的重要口語資訊,請選擇 BDA 方法,以確保完整轉錄和可搜尋性。