本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立多模態內容的知識庫
Amazon Bedrock 知識庫支援多模態內容,包括影像、音訊和影片檔案。您可以使用影像做為查詢進行搜尋、擷取視覺上類似的內容,以及處理多媒體檔案與傳統文字文件。此功能可讓您從各種資料類型中擷取洞見:獨立映像、音訊錄製,以及整個組織中存放的影片檔案。
Amazon Bedrock 知識庫可讓您從文字、視覺效果和音訊內容編製索引和擷取資訊。組織現在可以使用映像搜尋產品目錄、在訓練影片中尋找特定時刻,以及從客戶支援通話錄音擷取相關客群。
區域可用性
多模式處理方法有不同的區域可用性。如需詳細資訊,請參閱 區域可用性。
特性和功能
多模式知識庫提供下列關鍵功能:
- 以映像為基礎的查詢
-
使用 Nova Multimodal Embeddings 時,將影像提交為搜尋查詢,以尋找視覺上相似的內容。支援產品比對、視覺相似性搜尋和影像擷取。
- 音訊內容擷取
-
使用文字查詢搜尋音訊檔案。使用時間戳記參考從記錄擷取特定區段。音訊轉錄可跨語音內容進行文字型搜尋,包括會議、通話和播客。
- 影片片段擷取
-
使用文字查詢尋找影片檔案中的特定時刻。擷取具有精確時間戳記的視訊區段。
- 跨模式搜尋
-
搜尋不同的資料類型,包括文字文件、影像、音訊和影片。無論原始格式為何,擷取相關內容。
- 具有時間戳記的來源參考
-
擷取結果包括參考具有音訊和視訊時間中繼資料的原始檔案。可精確導覽至多媒體內容中的相關區段。
- 靈活的處理選項
-
為視覺相似性選擇原生多模式內嵌,或為以語音為基礎的內容選擇文字轉換。根據內容特性和應用程式需求設定處理方法。
運作方式
多模式知識庫透過多階段管道處理和擷取內容,以適當地處理不同的資料類型:
擷取和處理
-
資料來源連線:將您的知識庫連接至 Amazon S3 儲存貯體或包含文字文件、影像、音訊檔案和影片檔案的自訂資料來源。
-
檔案類型偵測:系統會依副檔名識別每個檔案類型,並將其路由至適當的處理管道。
-
內容處理:根據您的組態,使用兩種方法之一來處理檔案:
-
Nova 多模態內嵌:保留原生格式以進行視覺和音訊相似性比對。影像、音訊和視訊會直接內嵌,而不會轉換為文字。
-
Bedrock 資料自動化 (BDA):將多媒體轉換為文字表示。使用自動語音辨識 (ASR) 轉錄音訊、處理影片以擷取場景摘要和文字記錄,以及擷取 OCR 和視覺化內容的影像。
-
-
內嵌產生:已處理的內容會使用您選取的內嵌模型轉換為向量內嵌。這些內嵌會擷取語意意義,並啟用以相似性為基礎的擷取。
-
向量儲存:內嵌項目與中繼資料一起存放在您設定的向量資料庫中,包括檔案參考、時間戳記 (適用於音訊和視訊) 和內容類型資訊。
-
多模態儲存 (選用):如果已設定,原始多媒體檔案會複製到專用多模態儲存目的地,以便可靠擷取,即使修改或刪除來源檔案,也能確保可用性。
查詢和擷取
-
查詢處理:使用與擷取期間相同的內嵌模型,將使用者查詢 (文字或影像) 轉換為內嵌。
-
相似性搜尋:查詢內嵌會與向量資料庫中儲存的內嵌進行比較,以識別最相關的內容。
-
結果擷取:系統會傳回具有中繼資料的相符內容,包括:
-
來源 URI (原始檔案位置)
-
時間戳記中繼資料 (適用於音訊和視訊區段)
-
內容類型和模態資訊
-
-
回應產生 (選用):對於
RetrieveAndGenerate請求,擷取的內容會傳遞至基礎模型,以產生內容相關的文字回應。使用 BDA 處理或知識庫包含文字內容時支援此功能。
重要
系統會傳回參考,以使用音訊和視訊內容的時間戳記中繼資料完成檔案。您的應用程式必須根據提供的開始和結束時間戳記來擷取和播放特定客群。會自動AWS 管理主控台處理此操作。