

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Amazon Bedrock ナレッジベースとデータを同期する
<a name="kb-data-source-sync-ingest"></a>

ナレッジベースを作成したら、データを取り込むか同期して、クエリできるようにします。取り込み時には、指定したベクトル埋め込みモデルと設定に基づいて、データソースの未加工データがベクトル埋め込みに変換されます。

取り込みの開始前に、データソースが次の条件を満たしていることを確認してください。
+ データソースの接続情報が設定されている。データソースリポジトリのデータをクローリングするようにデータソースコネクタを設定する場合は、[サポート対象のデータソースコネクタ](https://docs.aws.amazon.com/bedrock/latest/userguide/data-source-connectors.html)をご確認ください。データソースの設定は、ナレッジベースの作成過程で行います。
+ 選択したベクトル埋め込みモデルとベクトルストアが設定されている。[サポート対象のベクトル埋め込みモデル](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-supported.html)と[ナレッジベース用のベクトルストア](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-setup.html)をご確認ください。ベクトル埋め込みの設定は、ナレッジベースの作成過程で行います。
+ ファイルがサポート対象の形式である。詳細については、「[Support document formats](https://docs.aws.amazon.com/bedrock/latest/userguide/knowledge-base-ds.html#kb-ds-supported-doc-formats-limits)」を参照してください。
+ ファイルのサイズが、「AWS 全般のリファレンス」の「[Amazon Bedrock エンドポイントとクォータ](https://docs.aws.amazon.com/general/latest/gr/bedrock.html)」で指定されている**取り込みジョブのファイルサイズ**を超えていない。
+ データソースにメタデータファイルが含まれている場合は、メタデータファイルが無視されないように、次の条件を確認してください。
  + 各 `.metadata.json` ファイルが、関連付けられているソースファイルと同じファイル名と拡張子を共有している。
  + ナレッジベースのベクトルインデックスが Amazon OpenSearch Serverless ベクトルストア内にある場合は、ベクトルインデックスが `faiss` エンジンで設定されていることを確認してください。ベクトルインデックスが `nmslib` エンジンで設定されている場合は、次のいずれかを行う必要があります。
    + コンソールで[新しいナレッジベースを作成](knowledge-base-create.md)し、Amazon Bedrock が Amazon OpenSearch Serverless でベクトルインデックスを自動作成できるようにします。
    + ベクトルストアに[別のベクトルインデックスを作成](knowledge-base-setup.md)し、**[エンジン]** として `faiss` を選択します。次に、[新しいナレッジベースを作成](knowledge-base-create.md)し、新しいベクトルインデックスを指定します。
  + ナレッジベースのベクトルインデックスが Amazon Aurora データベースクラスター内にある場合は、カスタムメタデータフィールドを使用してすべてのメタデータを 1 つの列に保存し、この列にインデックスを作成することをお勧めします。カスタムメタデータフィールドを指定しない場合は、取り込みを開始する前に、インデックスのテーブルにメタデータファイル内の各メタデータプロパティの列が含まれていることを確認する必要があります。詳細については、「[ナレッジベース用に作成したベクトルストアを使用するための前提条件](knowledge-base-setup.md)」を参照してください。

データソースからファイルを追加、変更、または削除するたびに、ナレッジベースでファイルのインデックスが再作成されるように、データソースを同期する必要があります。同期は増分処理であるため、前回の同期以降に追加、変更、または削除されたドキュメントだけが処理されます。

データをナレッジベースに取り込み、最新のデータと同期する方法を確認するには、任意の方法のタブを選択してステップを実行してください。

------
#### [ Console ]

**データをナレッジベースに取り込み、最新のデータと同期するには**

1. Amazon Bedrock コンソール ([https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/)) を開きます。

1. 左側のナビゲーションペインの **[ナレッジベース]** でナレッジベースを選択します。

1. **[データソース]** セクションで **[同期]** を選択して、データの取り込み (データインジェスト) または最新データの同期を開始します。同期中のデータソースを停止するには、**[停止]** を選択します。停止できるのは、同期中のデータソースだけです。**[同期]** をもう一度選択すると、残りのデータを取り込むことができます。

1. データインジェストが正常に完了すると、緑色の成功バナーが表示されます。
**注記**  
データの同期が完了した後、Amazon Aurora (RDS) 以外のベクトルストアを使用している場合は、新たに同期されたデータのベクトル埋め込みがナレッジベースに反映され、クエリに使用可能になるまでに数分かかることがあります。

1. データソースを選択して、そのデータソースの **[同期履歴]** を表示することができます。**[警告を表示]** を選択すると、データインジェストジョブが失敗した理由を確認できます。

------
#### [ API ]

ナレッジベースにデータを取り込み、最新のデータと同期するには、[Amazon Bedrock エージェントのビルドタイムエンドポイント](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-bt)で [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html) リクエストを送信します。`knowledgeBaseId` と `dataSourceId` を指定してください。[StopIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StopIngestionJob.html) リクエストを送信することで、実行中のデータインジェストジョブを停止することもできます。`dataSourceId`、`ingestionJobId`、および `knowledgeBaseId` を指定します。停止できるのは、実行中のデータインジェストジョブのみです。準備ができたら、`StartIngestionJob` リクエストを再送信して、残りのデータを取り込むことができます。

レスポンスで返された `ingestionJobId` を使用して、[Amazon Bedrock エージェントのビルドタイムエンドポイント](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-bt)で [GetIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_GetIngestionJob.html) リクエストを送信し、取り込みジョブのステータスを追跡します。また、`knowledgeBaseId` と `dataSourceId` も指定します。
+ 取り込みジョブが完了すると、レスポンス内の `status` は `COMPLETE` になります。
**注記**  
データの取り込みが完了した後、Amazon Aurora (RDS) 以外のベクトルストアを使用している場合は、新たに取り込まれたデータのベクトル埋め込みがベクトルストアに反映され、クエリに使用可能になるまでに数分かかることがあります。
+ レスポンス内の `statistics` オブジェクトは、データソース内のドキュメントの取り込みが成功したかどうかに関する情報を返します。

また、[Amazon Bedrock エージェントのビルドタイムエンドポイント](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#bra-bt)で [ListIngestionJobs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_ListIngestionJobs.html) リクエストを送信することで、データソースのすべての取り込みジョブに関する情報を確認することもできます。`dataSourceId` と、データの取り込み先のナレッジベースの `knowledgeBaseId` を指定してください。
+ 検索するステータスを `filters` オブジェクトで指定して、結果をフィルタリングします。
+ `sortBy` オブジェクトを指定して、ジョブの開始時間またはジョブのステータスでソートします。昇順または降順で並べ替えることができます。
+ レスポンスで返す結果の最大数を `maxResults` フィールドで設定します。設定した数よりも結果の件数が多い場合は、`nextToken` が返されます。これを別の [ListIngestionJobs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_ListIngestionJobs.html) リクエストで送信して、ジョブの次のバッチを確認できます。

------