新增資料來源並開始擷取 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

新增資料來源並開始擷取

建立知識庫後,新增包含多模式內容的資料來源,並開始擷取任務來處理內容並編製索引。

資料來源刪除行為

當您刪除將刪除政策設定為 RETAIN 的資料來源時,擷取的內容會保留在向量資料庫中,並繼續用於擷取。只有在刪除資料來源後明確同步知識庫時,才會移除內容。具有預設 DELETE 政策的資料來源會在刪除期間自動從向量資料庫和補充儲存中移除內容。這可確保即使來源檔案遭到修改或刪除,您的知識庫仍會繼續運作,但您應該注意,使用 RETAIN 政策刪除的資料來源仍可能導致搜尋結果。

新增資料來源

將包含多模態內容的資料來源新增至知識庫。

重要

對於 BDA 資料來源:只有啟動音訊/視訊支援後建立的資料來源才會處理音訊和視訊檔案。在此功能啟動之前建立的現有 BDA 資料來源將繼續略過音訊和視訊檔案。若要啟用現有知識庫的音訊/視訊處理,請建立新的資料來源。

Console
從主控台新增資料來源
  1. 在知識庫詳細資訊頁面中,選擇新增資料來源

  2. 選擇 Amazon S3 作為資料來源類型。

  3. 為您的資料來源提供名稱和描述。

  4. 提供儲存貯體 URI 和任何包含字首,以設定包含多模態檔案的 Amazon S3 位置。

  5. 內容剖析和區塊下,設定您的剖析和區塊化方法:

    注意

    文字內嵌模型會將擷取限制為純文字內容,但您可以透過選取 Amazon Bedrock Data Automation (適用於音訊、影片和影像) 或 Foundation Model 作為剖析器 (適用於影像),透過文字啟用多模式擷取。

    從三種剖析策略中選擇:

    • Bedrock 預設剖析器:建議用於純文字剖析。此剖析器會忽略多模態內容,且通常與多模態內嵌模型搭配使用。

    • Bedrock 資料自動化做為剖析器:啟用以文字形式剖析和儲存多模態內容,並支援 PDFs、影像、音訊和影片檔案。

    • 基礎模型作為剖析器:提供影像和結構化文件的進階剖析,支援 PDFs、影像、資料表和視覺效果豐富的文件。

  6. 選擇新增資料來源以建立資料來源。

CLI
使用 新增資料來源AWS CLI
  • 為您的多模態內容建立資料來源。傳送CreateDataSource請求:

    aws bedrock-agent create-data-source \ --knowledge-base-id <knowledge-base-id> \ --cli-input-json file://ds-multimodal.json

    對於 Nova Multimodal Embeddings (不需要特殊剖析組態),請使用下列ds-multimodal.json內容:

    { "dataSourceConfiguration": { "type": "S3", "s3Configuration": { "bucketArn": "arn:aws:s3:::<data-source-bucket>", "inclusionPrefixes": ["<folder-path>"] } }, "name": "multimodal_data_source", "description": "Data source with multimodal content", "dataDeletionPolicy": "RETAIN" }

    對於 BDA 剖析方法,請使用下列組態:

    { "dataSourceConfiguration": { "type": "S3", "s3Configuration": { "bucketArn": "arn:aws:s3:::<data-source-bucket>", "inclusionPrefixes": ["<folder-path>"] } }, "name": "multimodal_data_source_bda", "description": "Data source with BDA multimodal parsing", "dataDeletionPolicy": "RETAIN", "vectorIngestionConfiguration": { "parsingConfiguration": { "bedrockDataAutomationConfiguration": { "parsingModality": "MULTIMODAL" } } } }

開始擷取任務

新增資料來源之後,請啟動擷取任務,以處理和索引您的多模式內容。

Console
從主控台開始擷取
  1. 在資料來源詳細資訊頁面中,選擇同步

  2. 監控資料來源頁面上的同步狀態。擷取可能需要幾分鐘的時間,取決於多模式檔案的大小和數量。

  3. 同步成功完成後,您的多模態內容即可進行查詢。

CLI
使用 開始擷取AWS CLI
  1. 啟動擷取任務。傳送StartIngestionJob請求:

    aws bedrock-agent start-ingestion-job \ --knowledge-base-id <knowledge-base-id> \ --data-source-id <data-source-id>

    將預留位置取代為:

    • <knowledge-base-id> - 知識庫建立的 ID

    • <data-source-id> - 資料來源建立的 ID

  2. 使用 監控擷取任務狀態GetIngestionJob

刪除資料來源後重新同步

如果您刪除資料來源並想要從知識庫移除其內容,則必須明確重新同步知識庫:

移除已刪除的資料來源內容
  1. 使用主控台或 DeleteDataSource API 刪除資料來源。

  2. 在任何剩餘的資料來源上啟動新的擷取任務,以更新向量資料庫,並從已刪除的資料來源中移除內容。

  3. 驗證查詢不會再從已刪除的資料來源傳回結果。

注意

如果不重新同步,即使資料來源不再存在,來自已刪除資料來源的內容仍會繼續出現在搜尋結果中。