

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 建立多模態內容的知識庫
<a name="kb-multimodal-create"></a>

您可以使用 主控台或 API 建立多模式知識庫。根據您的多模式處理需求選擇您的方法。

**重要**  
多模式支援僅在建立具有非結構化資料來源的知識庫時可用。結構化資料來源不支援多模式內容處理。

------
#### [ Console ]

**從主控台建立多模式知識庫**

1.  AWS 管理主控台 使用具有使用 Amazon Bedrock 主控台之許可的 IAM 身分登入 。接著，開啟位於 [https://console.aws.amazon.com/bedrock](https://console.aws.amazon.com/bedrock) 的 Amazon Bedrock 主控台。

1. 在左側導覽窗格中選擇**知識庫**。

1. 在**知識庫**區段中，選擇**建立**，然後選擇**具有向量存放區的知識庫**。

1. (選用) 在**知識庫詳細資訊**下，變更預設名稱並提供知識庫的描述。

1. 在 **IAM 許可**區段中，選擇提供 Amazon Bedrock 許可的 IAM 角色，以存取其他必要的 AWS 服務。您可以讓 Amazon Bedrock 為您建立服務角色，也可以選擇使用自己的自訂角色。如需多模式許可，請參閱 [多模態內容的許可](kb-permissions.md#kb-permissions-multimodal)。

1. 選擇 **Amazon S3** 做為資料來源，然後選擇**下一步**以設定資料來源。
**注意**  
在知識庫建立期間，您最多可以新增 5 個 Amazon S3 資料來源。建立知識庫後，可以新增其他資料來源。

1. 提供包含多模態內容之儲存貯體的 **S3 URI**，並視需要設定包含字首。包含字首是資料夾路徑，可用來限制要擷取的內容。

1. 在**區塊和剖析組態**下，選擇您的剖析策略：
   + **Bedrock 預設剖析器：**建議用於純文字內容處理。此剖析器會處理常見的文字格式，同時忽略多模式檔案。支援文字文件，包括 Word、Excel、HTML、Markdown、TXT 和 CSV 檔案。
   + **Bedrock Data Automation (BDA)：**將多模態內容轉換為可搜尋的文字表示。處理 PDFs、影像、音訊和影片檔案，以擷取文字、產生視覺內容的描述，以及建立音訊和影片內容的轉錄。
   + **基礎模型剖析器：**為複雜的文件結構提供進階剖析功能。處理 PDFs、影像、結構化文件、資料表和視覺效果豐富的內容，以擷取文字並產生視覺效果元素的描述。

1. 選擇**下一步**，然後選取內嵌模型和多模式處理方法。
   + **Amazon Nova 多模態內嵌 V1.0：**選擇 **Amazon Nova 內嵌 V1.0** 以進行直接視覺和音訊相似性搜尋。設定音訊和視訊區塊持續時間 (1-30 秒，預設 5 秒），以控制如何分割內容。
**注意**  
音訊和視訊區塊參數是在內嵌模型層級設定，而不是在資料來源層級設定。如果您為非多模態嵌入模型提供此組態，則會發生驗證例外狀況。設定音訊和視訊區塊持續時間 （預設值：5 秒，範圍：1-30 秒），以控制分段內容的方式。較短區塊可實現精確的內容擷取，而較長區塊則可保留更多語意內容。
**重要**  
Amazon Nova 內嵌 v1.0 對在音訊/影片資料中搜尋語音內容的支援有限。如果您需要支援語音，請使用 Bedrock Data Automation 做為剖析器。
   + **使用 BDA 的文字內嵌：**使用 BDA 處理時，請選擇文字內嵌模型 （例如 Titan Text Embeddings v2)。文字內嵌模型會將擷取限制為純文字內容，但您可以透過選取 Amazon Bedrock Data Automation 或 Foundation Model 做為剖析器來啟用多模式擷取。
**注意**  
如果您將 BDA 剖析器與 Nova Multimodal Embeddings 搭配使用，Amazon Bedrock 知識庫會先進行 BDA 剖析。在這種情況下，內嵌模型不會產生影像、音訊和視訊的原生多模式內嵌，因為 BDA 會將這些內嵌轉換為文字表示。

1. 如果使用 Nova 多模態內嵌，請指定 Amazon S3 儲存貯體來設定**多模態儲存目的地**，其中會存放處理的檔案以供擷取。知識庫會將剖析的映像存放在單一 Amazon S3 儲存貯體中，並建立資料夾 .bda 以方便存取。
**生命週期政策建議**  
使用 Nova 多模態內嵌時，Amazon Bedrock 會將暫時性資料存放在多模態儲存目的地，並在處理完成後嘗試將其刪除。我們建議在暫時性資料路徑上套用生命週期政策，以確保適當的清除。如需詳細說明，請參閱 [使用 Amazon S3 生命週期政策管理暫時性資料](kb-multimodal-troubleshooting.md#kb-multimodal-lifecycle-policy)。

1. 在**向量資料庫**區段中，選擇向量存放區方法，並根據您選擇的內嵌模型設定適當的維度。

1. 選擇**下一步**，檢閱知識庫組態的詳細資訊，然後選擇**建立知識庫**。

------
#### [ CLI ]

**使用 建立多模式知識庫 AWS CLI**
+ 使用 Nova Multimodal Embeddings 建立知識庫。傳送[https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html)請求：

  ```
  aws bedrock-agent create-knowledge-base \
  --cli-input-json file://kb-nova-mme.json
  ```

  的內容 `kb-nova-mme.json`（將預留位置值取代為您的特定組態）：

  ```
  {
      "knowledgeBaseConfiguration": {
          "vectorKnowledgeBaseConfiguration": {
              "embeddingModelArn": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-2-multimodal-embeddings-v1:0",
              "supplementalDataStorageConfiguration": {
                  "storageLocations": [
                      {
                          "type": "S3",
                          "s3Location": {
                              "uri": "s3://<multimodal-storage-bucket>/"
                          }
                      }
                  ]
              }
          },
          "type": "VECTOR"
      },
      "storageConfiguration": {
          "opensearchServerlessConfiguration": {
              "collectionArn": "arn:aws:aoss:us-east-1:<account-id>:collection/<collection-id>",
              "vectorIndexName": "<index-name>",
              "fieldMapping": {
                  "vectorField": "<vector-field>",
                  "textField": "<text-field>",
                  "metadataField": "<metadata-field>"
              }
          },
          "type": "OPENSEARCH_SERVERLESS"
      },
      "name": "<knowledge-base-name>",
      "description": "Multimodal knowledge base with Nova Multimodal Embeddings"
  }
  ```

  取代下列預留位置：
  + `<multimodal-storage-bucket>` - 用於儲存多模式檔案的 S3 儲存貯體
  + `<account-id>` - 您的 AWS 帳戶 ID
  + `<collection-id>` - OpenSearch Serverless 集合 ID
  + `<index-name>` - OpenSearch 集合中的向量索引名稱 （為您選擇的內嵌模型設定適當的維度）
  + `<vector-field>` - 用於儲存內嵌的欄位名稱
  + `<text-field>` - 用於儲存文字內容的欄位名稱
  + `<metadata-field>` - 用於儲存中繼資料的欄位名稱

------