對多模式知識庫進行故障診斷 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

對多模式知識庫進行故障診斷

本節提供解決使用多模式知識庫時遇到的常見問題的指引。疑難排解資訊會依一般限制、常見錯誤案例及其原因和解決方案,以及效能最佳化建議進行組織。使用此資訊來診斷和解決設定、擷取或查詢多模式內容期間的問題。

一般限制

使用多模式知識庫時,請注意這些目前的限制:

  • 檔案大小限制:每個影片檔案最多 1.5 GB、每個音訊檔案 1 GB (Nova 多模態內嵌) 或每個檔案 1.5 GB (BDA)

  • 每個擷取任務的檔案:每個任務最多 15,000 個檔案 (Nova 多模式內嵌) 或每個任務 1,000 個檔案 (BDA)

  • 查詢限制:每個查詢最多一個映像

  • 資料來源限制:只有 Amazon S3 和自訂資料來源支援多模式內容

  • BDA 區塊限制:使用 Bedrock Data Automation 搭配固定大小區塊時,重疊百分比設定不會套用至音訊和視訊內容

  • BDA 並行任務限制:預設限制為 20 個並行 BDA 任務。對於大規模處理,請考慮請求提高服務配額

  • 重新排名器模型限制:多模型內容不支援重新排名器模型

  • 摘要限制:不支援包含非文字內容的擷取回應摘要

  • 查詢輸入限制:目前不支援同時包含文字和影像的輸入。您可以使用文字或影像查詢,但不能同時使用兩者。

  • 護欄映像內容篩選條件:將映像查詢與已設定映像內容篩選條件的護欄搭配使用時,系統會針對護欄評估輸入映像,如果輸入映像違反設定的篩選條件閾值,可能會遭到封鎖

  • 輸入和類型不符:根據預設,未指定類型時,輸入會假設為文字。使用文字以外的模態時,您必須指定正確的類型

常見錯誤和解決方案

如果您遇到多模式知識庫的問題,請檢閱這些常見案例:

使用映像查詢時發生 4xx 錯誤

原因:嘗試搭配純文字內嵌模型或 BDA 處理知識庫使用映像查詢。

解決方案:建立映像查詢支援的知識庫時,請選擇 Amazon Nova 多模式內嵌。

RAG 傳回具有多模態內容的 4xx 錯誤

原因:RetrieveAndGenerate搭配僅包含多模態內容和 Amazon Nova 多模態內嵌模型的知識庫使用 。

解決方案:將 BDA 剖析器用於 RAG 功能,或確保您的知識庫包含文字內容。

多模態儲存目的地必要錯誤

原因:使用 Nova 多模態內嵌而不設定多模態儲存目的地。

解決方案:使用 Nova Multimodal Embeddings 時指定多模式儲存目的地。

資料來源和多模式儲存使用相同的 S3 儲存貯體

原因:將資料來源和多模式儲存目的地設定為使用相同的 Amazon S3 儲存貯體,而不使用適當的包含字首。

解決方案:針對資料來源和多模式儲存使用不同的儲存貯體,或設定包含字首以防止重新擷取擷取的媒體檔案。

包含字首不能以「aws/」開頭

原因:當您的資料來源和多模態儲存目的地共用相同的 Amazon S3 儲存貯體時,使用開頭為 "aws/" 的包含字首。

解決方案:指定不同的包含字首。"aws/" 路徑保留給擷取的媒體儲存體,不能用作包含字首,以避免重新擷取處理的內容。

BDA 擷取會略過多模態內容

原因:知識庫建立時沒有多模態儲存目的地,然後新增 BDA 資料來源與多模態內容。

解決方案:重新建立知識庫,並將多模式儲存目的地設定為啟用音訊、影片和影像檔案的 BDA 處理。

在沒有多模式內嵌模型的情況下建立的知識庫

原因:知識庫是使用純文字內嵌模型建立,限制多模式功能。

解決方案:使用 Nova Multimodal Embeddings 建立新的知識庫,以啟用原生多模式處理和影像型查詢。

使用 Amazon S3 生命週期政策管理暫時性資料

使用 Nova 多模態內嵌時,Amazon Bedrock 會將暫時性資料存放在多模態儲存目的地,並在處理完成後嘗試將其刪除。我們建議在暫時性資料路徑上套用生命週期政策,以確保其已正確過期。

Console
使用主控台建立生命週期規則
  1. 開啟 Amazon S3 主控台

  2. 導覽至您為知識庫設定的多模式儲存目的地。

  3. 選擇管理索引標籤,然後選取建立生命週期規則

  4. 針對生命週期規則名稱,輸入 Transient Data Deletion

  5. 篩選條件類型下,選擇使用一或多個篩選條件限制此規則的範圍

  6. 針對字首,輸入知識庫和資料來源的暫時性資料路徑。

    將下列字首中的預留位置值取代為您實際的識別符:

    aws/bedrock/knowledge_bases/knowledge-base-id/data-source-id/transient_data
    重要

    請勿將生命週期政策套用至整個儲存貯體或「aws/」字首,因為這會刪除您的多模態內容並導致擷取失敗。僅使用上述顯示的特定暫時性資料路徑。

  7. 生命週期規則動作下,選取物件的目前版本過期

  8. 針對物件建立後的天數,輸入 1

  9. 選擇建立規則

AWS CLI
使用 建立生命週期規則AWS CLI
  1. 使用下列內容建立名為 lifecycle-policy.json的 JSON 檔案。

    將預留位置值取代為您實際的識別符:

    • knowledge-base-id - 您的知識庫識別符

    • data-source-id - 您的資料來源識別符

    { "Rules": [ { "ID": "TransientDataDeletion", "Status": "Enabled", "Filter": { "Prefix": "aws/bedrock/knowledge_bases/knowledge-base-id/data-source-id/transient_data" }, "Expiration": { "Days": 1 } } ] }
  2. 將生命週期政策套用至您的儲存貯體。以實際儲存貯體名稱取代 your-multimodal-storage-bucket

    aws s3api put-bucket-lifecycle-configuration \ --bucket your-multimodal-storage-bucket \ --lifecycle-configuration file://lifecycle-policy.json
  3. 確認已套用生命週期政策:

    aws s3api get-bucket-lifecycle-configuration \ --bucket your-multimodal-storage-bucket

如需 Amazon S3 生命週期政策的詳細資訊,請參閱《Amazon S3 使用者指南》中的管理物件的生命週期

效能考量

若要使用多模式知識庫獲得最佳效能,請考慮下列因素:

  • 處理時間:由於內容轉換,BDA 處理需要更長的時間

  • 查詢延遲:影像查詢的延遲可能高於文字查詢

  • 區塊持續時間:較長的音訊/視訊區塊持續時間會增加處理時間,但可能會提高準確性