本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立多模態內容的知識庫
您可以使用 主控台或 API 建立多模式知識庫。根據您的多模式處理需求選擇您的方法。
重要
多模式支援僅在建立具有非結構化資料來源的知識庫時可用。結構化資料來源不支援多模式內容處理。
- Console
-
從主控台建立多模式知識庫
-
AWS 管理主控台使用具有使用 Amazon Bedrock 主控台之許可的 IAM 身分登入 。接著,開啟位於 https://console.aws.amazon.com/bedrock
的 Amazon Bedrock 主控台。 -
在左側導覽窗格中選擇知識庫。
-
在知識庫區段中,選擇建立,然後選擇具有向量存放區的知識庫。
-
(選用) 在知識庫詳細資訊下,變更預設名稱並提供知識庫的描述。
-
在 IAM 許可區段中,選擇提供 Amazon Bedrock 許可的 IAM 角色,以存取其他必要的 AWS 服務。您可以讓 Amazon Bedrock 為您建立服務角色,也可以選擇使用自己的自訂角色。如需多模式許可,請參閱 多模態內容的許可。
-
選擇 Amazon S3 做為資料來源,然後選擇下一步以設定資料來源。
注意
在建立知識庫期間,您最多可以新增 5 個 Amazon S3 資料來源。建立知識庫後,可以新增其他資料來源。
-
提供包含多模態內容之儲存貯體的 S3 URI,並視需要設定包含字首。包含字首是資料夾路徑,可用來限制要擷取的內容。
-
在區塊和剖析組態下,選擇您的剖析策略:
-
Bedrock 預設剖析器:建議用於純文字內容處理。此剖析器處理常見的文字格式,同時忽略多模式檔案。支援文字文件,包括 Word、Excel、HTML、Markdown、TXT 和 CSV 檔案。
-
Bedrock Data Automation (BDA):將多模態內容轉換為可搜尋的文字表示。處理 PDFs、影像、音訊和影片檔案,以擷取文字、產生視覺內容的描述,以及建立音訊和影片內容的轉錄。
-
基礎模型剖析器:為複雜的文件結構提供進階剖析功能。處理 PDFs、影像、結構化文件、資料表和視覺效果豐富的內容,以擷取文字並產生視覺效果元素的描述。
-
-
選擇下一步,然後選取內嵌模型和多模式處理方法。
-
Amazon Nova 多模態內嵌 V1.0:選擇 Amazon Nova 內嵌 V1.0 進行直接視覺和音訊相似性搜尋。設定音訊和視訊區塊持續時間 (1-30 秒,預設 5 秒),以控制分段內容的方式。
注意
音訊和視訊區塊參數是在內嵌模型層級設定,而不是在資料來源層級設定。如果您為非多模式內嵌模型提供此組態,則會發生驗證例外狀況。設定音訊和視訊區塊持續時間 (預設值:5 秒,範圍:1-30 秒),以控制分段內容的方式。較短區塊可精確擷取內容,而較長區塊則可保留更多語意內容。
重要
Amazon Nova 內嵌 v1.0 對在音訊/影片資料中搜尋語音內容的支援有限。如果您需要支援語音,請使用 Bedrock Data Automation 做為剖析器。
-
使用 BDA 的文字內嵌:使用 BDA 處理時,選擇文字內嵌模型 (例如 Titan Text Embeddings v2)。文字內嵌模型會將擷取限制為純文字內容,但您可以透過選取 Amazon Bedrock Data Automation 或 Foundation Model 做為剖析器來啟用多模式擷取。
注意
如果您將 BDA 剖析器與 Nova Multimodal Embeddings 搭配使用,Amazon Bedrock 知識庫會先進行 BDA 剖析。在此情況下,內嵌模型不會產生影像、音訊和視訊的原生多模式內嵌,因為 BDA 會將這些內嵌轉換為文字表示法。
-
-
如果使用 Nova 多模態內嵌,請指定 Amazon S3 儲存貯體來設定多模態儲存目的地,其中會存放處理的檔案以供擷取。知識庫會將剖析的映像儲存到單一 Amazon S3 儲存貯體中,其中包含建立 .bda 的資料夾,以便於存取。
生命週期政策建議
使用 Nova 多模態內嵌時,Amazon Bedrock 會將暫時性資料存放在多模態儲存目的地,並在處理完成後嘗試將其刪除。我們建議在暫時性資料路徑上套用生命週期政策,以確保適當的清除。如需詳細說明,請參閱 使用 Amazon S3 生命週期政策管理暫時性資料。
-
在向量資料庫區段中,選擇向量存放區方法,並根據您選擇的內嵌模型設定適當的維度。
-
選擇下一步,檢閱知識庫組態的詳細資訊,然後選擇建立知識庫。
-
- CLI
-
使用 建立多模式知識庫AWS CLI
-
使用 Nova Multimodal Embeddings 建立知識庫。傳送
CreateKnowledgeBase請求:aws bedrock-agent create-knowledge-base \ --cli-input-json file://kb-nova-mme.json的內容
kb-nova-mme.json(將預留位置值取代為您的特定組態):{ "knowledgeBaseConfiguration": { "vectorKnowledgeBaseConfiguration": { "embeddingModelArn": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-2-multimodal-embeddings-v1:0", "supplementalDataStorageConfiguration": { "storageLocations": [ { "type": "S3", "s3Location": { "uri": "s3://<multimodal-storage-bucket>/" } } ] } }, "type": "VECTOR" }, "storageConfiguration": { "opensearchServerlessConfiguration": { "collectionArn": "arn:aws:aoss:us-east-1:<account-id>:collection/<collection-id>", "vectorIndexName": "<index-name>", "fieldMapping": { "vectorField": "<vector-field>", "textField": "<text-field>", "metadataField": "<metadata-field>" } }, "type": "OPENSEARCH_SERVERLESS" }, "name": "<knowledge-base-name>", "description": "Multimodal knowledge base with Nova Multimodal Embeddings" }取代下列預留位置:
-
<multimodal-storage-bucket>- 儲存多模式檔案的 S3 儲存貯體 -
<account-id>- 您的 AWS 帳戶 ID -
<collection-id>- OpenSearch Serverless 集合 ID -
<index-name>- OpenSearch 集合中的向量索引名稱 (為您選擇的內嵌模型設定適當的維度) -
<vector-field>- 用於儲存內嵌的欄位名稱 -
<text-field>- 用於儲存文字內容的欄位名稱 -
<metadata-field>- 用於儲存中繼資料的欄位名稱
-
-