Amazon Bedrock ナレッジベースでデータソースに接続してナレッジベースを作成する

重要

取得精度とマネージドエクスペリエンスを最適化するには、Amazon Bedrock マネージドナレッジベースをお勧めします。

データソースに接続してナレッジベースを作成するときは、以下を設定または指定します。

ナレッジベースを定義して識別する一般情報
ナレッジベースへのアクセス許可を持つサービスロール
ナレッジベースの設定 (データソースからデータを変換するときに使用する埋め込みモデル、埋め込みを保存するサービスのストレージ設定、およびオプションでマルチモーダルデータを保存する S3 の場所など)

注記

ルートユーザーを使用してナレッジベースを作成することはできません。これらのステップを開始する前に、IAM ユーザーでログインします。

自分のユースケースに対応するセクションを展開してください。

ナレッジベースを設定するには

Amazon Bedrock コンソールを使用するアクセス許可を持つ IAM ID AWS マネジメントコンソールを使用してにサインインします。Amazon Bedrock コンソール (https://console.aws.amazon.com/bedrock) を開きます。
左側のナビゲーションペインで [ナレッジベース] を選択します。
[ナレッジベース] セクションで、作成ボタンを選択し、ベクトルストアを含むナレッジベースの作成を選択します。
(オプション) ナレッジベースのデフォルトの名前を変更し、説明を入力します。
他の必要なAWSサービスにアクセスするためのアクセス許可を Amazon Bedrock に付与する AWS Identity and Access Management(IAM) ロールを選択します。Amazon Bedrock にサービスロールを作成させることも、Neptune Analytics 用に作成した独自のカスタムロールの使用を選択することもできます。
ナレッジベースを接続するデータソースを選択します。
(オプション) ナレッジベースにタグを追加します。詳細については、「Amazon Bedrock リソースにタグ付け」を参照してください。
(オプション) ナレッジベースのアクティビティログを配信するサービスを設定します。
次のセクションに進み、「データソースをナレッジベースと接続する」の手順に従ってデータソースを設定します。
[埋め込みモデル] セクションで、次の操作を行います。
1. 埋め込みモデルを選択して、データをベクトル埋め込みに変換します。マルチモーダルデータ (イメージ、オーディオ、ビデオ) の場合は、Amazon Titan Multimodal Embeddings G1 や Cohere Embed v3 などのマルチモーダル埋め込みモデルを選択します。
  
  注記
  Amazon Titan マルチモーダル埋め込み G1 を使用する場合は、S3 コンテンツバケットを指定する必要があり、デフォルトのパーサーのみを使用できます。このモデルは、イメージ検索のユースケース向けに最適化されています。マルチモーダルアプローチの選択に関する包括的なガイダンスについては、「」を参照してくださいマルチモーダルコンテンツのナレッジベースを構築する。
2. (オプション) [追加設定] セクションを展開すると、次の設定オプションが表示されます (すべてのモデルがすべての設定をサポートしているわけではありません)。
  - 埋め込みタイプ – データを浮動小数点 (float32) ベクトル埋め込み (より正確だがコストがかかる) またはバイナリベクトル埋め込み (精度は低下するがコストが低い) に変換するかどうか。バイナリベクトルをサポートする埋め込みモデルについては、「サポートされている埋め込みモデル」を参照してください。
  - ベクトルディメンション – 値を大きくすると精度は向上しますが、コストとレイテンシーが増加します。
[ベクトルデータベース] セクションで、次の操作を行います。
1. ベクトルストアを選択して、クエリに使用するベクトル埋め込みを保存します。次のオプションがあります。
  - 新しいベクトルストアをクイック作成する – Amazon Bedrock で使用できるベクトルストアのいずれかを選択します。オプションで、ベクトルストアのAWS KMSキー暗号化を設定することもできます。
    
    注記
    このオプションを使用すると、Amazon Bedrock は各ベクトルストアのメタデータ配置を自動的に処理します。
    Amazon OpenSearch Serverless – Amazon Bedrock ナレッジベースは、Amazon OpenSearch Serverless ベクトル検索コレクションとインデックスを作成し、必須フィールドを使用してそれを設定します。
    
    Amazon Aurora PostgreSQL Serverless – Amazon Bedrock は Amazon Aurora PostgreSQL Serverless ベクトルストアを設定します。このプロセスでは、Amazon S3 バケットから非構造化テキストデータを取得し、テキストチャンクとベクトルに変換して、PostgreSQL データベースに保存します。詳細については、「Amazon Bedrock 用の Aurora PostgreSQL ナレッジベースのクイック作成」を参照してください。
    
    Amazon Neptune Analytics – Amazon Bedrock は、検索拡張生成 (RAG) 手法をグラフと組み合わせて使用して生成 AI アプリケーションを強化し、エンドユーザーがより正確で包括的なレスポンスを得られるようにします。
    
    Amazon S3 Vectors – Amazon Bedrock ナレッジベースは、データソースから生成された埋め込みを保存する S3 ベクトルバケットとベクトルインデックスを作成します。
    
    Amazon Bedrock と Amazon S3 Vectors の両方が利用可能なすべての AWS リージョンでAmazon S3のナレッジベースを作成できます。リージョンの可用性に関する情報については、「Amazon S3 ユーザーガイド」の「Amazon S3 Vectors」を参照してください。
    
    注記
    Amazon Bedrock ナレッジベースで Amazon S3 ベクトルを使用する場合、ベクトルごとに最大 1 KB のカスタムメタデータ (フィルタリング可能なメタデータとフィルタリング不可能なメタデータの両方を含む) と 35 のメタデータキーをアタッチできます。メタデータの制限の詳細については、メタデータのサポート「」の「」を参照してくださいナレッジベース用に作成したベクトルストアを使用するための前提条件。
  - 作成したベクトルストアを選択する – サポートされているベクトルストアを選択し、ベクトルインデックス内のベクトルフィールド名とメタデータフィールド名を識別します。詳細については、「ナレッジベース用に作成したベクトルストアを使用するための前提条件」を参照してください。
    
    注記
    データソースが Confluence、Microsoft SharePoint、または Salesforce インスタンスの場合、サポートされているベクトルストアサービスは Amazon OpenSearch Serverless のみです。
2. (オプション) [追加設定] セクションを展開し、関連する設定を変更します。
データソースに画像が含まれている場合は、パーサーが [マルチモーダルストレージの保存先] のデータから抽出するイメージを保存する Amazon S3 URI を指定します。画像はクエリ中に返すことができます。オプションで、デフォルトの代わりにカスタマーマネージドキーを選択してデータをAWS マネージドキー暗号化することもできます。

注記
マルチモーダルデータは、Amazon S3 およびカスタムデータソースでのみサポートされています。
注記
マルチモーダル埋め込みモデルを使用する場合:
- Amazon Titan Multimodal Embeddings G1 には S3 コンテンツバケットが必要で、デフォルトのパーサーを使用するイメージのみのデータセットに最適です。
- Cohere Embed v3 は、テキストデータセットと画像データセットの混在をサポートしており、任意のパーサー設定で使用できます。
- イメージ検索のユースケースでは、トークンの制限により、Bedrock Data Automation (BDA) または基盤モデルパーサーを Titan G1 で使用しないようにします。
- マルチモーダルストレージの送信先は、取得目的でファイルコピーを作成するため、追加のストレージ料金が発生する可能性があります。
[次へ] を選択して、ナレッジベースの詳細を確認します。次に進みナレッジベースを作成する前に、任意のセクションを編集できます。

注記
ナレッジベースの作成にかかる時間は、特定の設定によって異なります。ナレッジベースの作成が完了すると、ナレッジベースのステータスは準備中または利用可能な状態に変更されます。
ナレッジベースの準備ができて使用可能になったら、最初にデータソースの同期を行い、その後も必要に応じて同期を行いコンテンツを最新の状態に保ちます。コンソールでナレッジベースを選択し、データソースの概要セクションで [同期] を選択します。

ナレッジベースを作成するには、Amazon Bedrock エージェントのビルドタイムエンドポイントを使用して、CreateKnowledgeBase リクエストを送信します。

注記

Amazon Bedrock にベクトルストアを作成および管理させたい場合は、コンソールを使用します。詳細については、このトピックの「コンソールを使用する」セクションを展開します。

以下のフィールドが必要です。

フィールド	基本的な説明
name	ナレッジベースの名前
roleArn	Amazon Bedrock ナレッジベースサービスロールの ARN
knowledgeBaseConfiguration	ナレッジベースの設定が含まれます。詳細については、以下を参照してください。
storageConfiguration	(非構造化データソースに接続する場合にのみ必要です)。選択したデータソースサービスの設定が含まれます。

次のフィールドはオプションです。

フィールド	ユースケース
説明	ナレッジベースの説明
clientToken	API リクエストが 1 回だけ完了するようにします。詳細については、「べき等性の確保」を参照してください。
タグ	タグをエイリアスに関連付ける場合に指定します。詳細については、「Amazon Bedrock リソースにタグ付け」を参照してください。

KnowledgeBaseConfiguration オブジェクトにマッピングする knowledgeBaseConfiguration フィールドで、type フィールドに VECTOR を指定し、VectorKnowledgeBaseConfiguration オブジェクトを含めます。オブジェクトには、以下のフィールドが含まれています。

embeddingModelArn – 使用する埋め込みモデルの ARN
embeddingModelConfiguration – 埋め込みモデルの設定サポートされているモデルごとに指定できる値を確認するには、「Amazon Bedrock ナレッジベースでサポートされているモデルとリージョン」を参照してください。
(画像、図、グラフ、または表を含むマルチモーダルデータをナレッジベースに含める場合) supplementalDataStorageConfiguration – SupplementalDataStorageLocation オブジェクトにマッピングし、抽出されたデータを保存する S3 の場所を指定します。詳細については、「データソースの解析オプション」を参照してください。

StorageConfiguration オブジェクトにマッピングされる storageConfiguration フィールドで、type フィールドで接続するベクトルストアを指定し、そのベクトルストアに対応するフィールドを含めます。提供する必要がある情報の詳細については、StorageConfiguration の各ベクトルストア設定タイプを参照してください。

以下は、Amazon OpenSearch Serverless コレクションに接続されたナレッジベースを作成するリクエストの例です。接続されたデータソースからのデータは Amazon Titan Text Embeddings V2 とのバイナリベクトル埋め込みに変換され、パーサーによって抽出されたマルチモーダルデータは MyBucket というバケットに保存されるように設定されています。


PUT /knowledgebases/ HTTP/1.1
Content-type: application/json

{
   "name": "MyKB",
   "description": "My knowledge base",
   "roleArn": "arn:aws:iam::111122223333:role/service-role/AmazonBedrockExecutionRoleForKnowledgeBase_123",
   "knowledgeBaseConfiguration": {
      "type": "VECTOR",
      "vectorKnowledgeBaseConfiguration": { 
         "embeddingModelArn": "arn:aws:bedrock:us-east-1::foundation-model/amazon.titan-embed-text-v2:0",
         "embeddingModelConfiguration": { 
            "bedrockEmbeddingModelConfiguration": { 
               "dimensions": 1024,
               "embeddingDataType": "BINARY"
            }
         },
         "supplementalDataStorageConfiguration": { 
            "storageLocations": [ 
               { 
                  "s3Location": { 
                     "uri": "arn:aws:s3:::MyBucket"
                  },
                  "type": "S3"
               }
            ]
         }
      }
   },
   "storageConfiguration": { 
      "opensearchServerlessConfiguration": { 
         "collectionArn": "arn:aws:aoss:us-east-1:111122223333:collection/abcdefghij1234567890",
         "fieldMapping": { 
            "metadataField": "metadata",
            "textField": "text",
            "vectorField": "vector"
         },
         "vectorIndexName": "MyVectorIndex"
      }
   }
}

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

きめ細かなアクセスコントロールによる OpenSearch アクセス許可の設定

データソースを接続する