Bedrock Data Automation のプロジェクト - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Bedrock Data Automation のプロジェクト

Amazon Bedrock Data Automation (BDA) を使用してファイルを処理する 1 つの方法は、プロジェクトを作成することです。プロジェクトは、標準出力設定とカスタム出力設定の両方をグループ化したものです。プロジェクトでは標準出力は必須ですが、カスタム出力はオプションです。プロジェクト ARN を使用して InvokeDataAutomationAsync API を呼び出すと、そのプロジェクトで定義された構成設定を使用してファイルが自動的に処理されます。その後、プロジェクトの設定に基づいて出力が生成されます。

プロジェクトには、LIVE または DEVELOPMENT のいずれかのステージを指定できます。各ステージは、プロジェクトの一意かつ変更可能なバージョンです。つまり、DEVELOPMENT ステージで編集やテストを行い、LIVE ステージを使用して顧客のリクエストを処理できるということです。DEVELOPMENT プロジェクトはコンソールからアクセスできないため、API を介して変更および呼び出す必要があります。

プロジェクトでは、1 つのリソースを複数のファイルタイプで使用できます。例えば、プロジェクト名 ABC を使用して BDA に送信されたオーディオファイルは、プロジェクト ABC のオーディオ標準出力設定を使用して処理されます。プロジェクト名 ABC を使用して BDA に送信されたドキュメントは、プロジェクト ABC のドキュメント標準出力設定を使用して処理されます。

プロジェクトを使用すると、標準出力を設定する際の柔軟性が向上します。各標準出力には、文字起こしや概要などの設定可能なオプションがあり、プロジェクトではこれらのオプションを変更して、ユースケースにより適したものにすることができます。ドキュメント、オーディオ、画像用のブループリントを使用してプロジェクトを設定し、カスタム出力を定義することもできます。カスタム出力を生成するように設定されているプロジェクトは、標準出力も自動的に生成します。

次のセクションでは、プロジェクトの使用例をいくつか紹介します。

標準出力でのプロジェクトの使用

オーディオファイル全体とビデオファイル全体から文字起こしの概要のみを抽出するユースケースについて考えてみましょう。デフォルトでは、BDA にオーディオファイルとビデオファイルを送信すると、完全な文字起こしとともに、文字起こしの概要とシーンレベルの概要、検出されたテキストなどの情報を受け取ることができます。このユースケースでは、不要な情報を収集するために余分な時間とリソースを費やす必要はありません。このユースケースでは、オーディオファイルとビデオファイルに対して概要機能のみを有効にするよう、標準出力プロジェクトを設定できます。

API またはコンソールを使用してこれを行うには、プロジェクトを作成し、オーディオとビデオの標準出力設定を変更します。ビデオの場合は、[ビデオ全体の概要] を有効にしますが、他の抽出 (オーディオ全体の文字起こし、シーンの概要、コンテンツモデレーションなど) は無効にしてください。オーディオの場合は、この設定を繰り返します。概要のみを生成するようにプロジェクトを設定した後、プロジェクトを保存し、プロジェクトの Amazon リソースネーム (ARN) を書き留めます。この ARN を InvokeDataAutomationAsync オペレーションで使用して、大規模にファイルを処理できます。BDA にオーディオファイルまたはビデオファイルを渡し、このプロジェクトの ARN を指定すると、各ファイルの概要のみを出力として受け取ることができます。なお、この例ではドキュメントや画像に対して実行された設定はありませんでした。つまり、そのプロジェクトの ARN を使用して BDA に画像またはドキュメントを渡すと、それらのファイルに対応するデフォルトの標準出力を受け取るということです。

カスタム出力と標準出力でのプロジェクトの使用

このユースケースでは、ドキュメントおよびオーディオファイルの標準出力の概要を生成し、ドキュメントからカスタムフィールドを抽出する必要があると想定しましょう。プロジェクトを作成した後、オーディオの標準出力を設定して [オーディオ全体の概要] を有効にし、他の抽出が有効になっていないことを確認してください。ドキュメントの場合は、この標準出力設定を繰り返します。次に、新しいブループリントを追加するか、BDA グローバルカタログから既存のブループリントを選択すると、ドキュメントに対してカスタム出力を設定できます。このプロジェクトの ARN を使用して BDA に渡されるドキュメントは、標準出力のドキュメント全体の概要と、定義されたカスタムフィールドに対応するブループリント出力を生成します。このプロジェクトの ARN を使用して BDA に渡されるオーディオファイルは、全体の概要を生成します。

ドキュメントを処理するときは、プロジェクトに渡される異なる種類のドキュメントに複数のブループリントを使用することをお勧めします。1 つのプロジェクトには、最大 40 個のドキュメントブループリントをアタッチできます。BDA は、プロジェクトに設定された適切なブループリントに自動的にドキュメントをマッチングし、そのブループリントを用いてカスタム出力を生成します。さらに、ドキュメントを一括で渡すこともできます。複数のドキュメントを含むファイルを渡した場合、プロジェクト作成時にドキュメントの分割を選択できます。これを選択した場合、BDA はファイルをスキャンし、コンテキストに基づいて個々のドキュメントに分割します。それらの個々のドキュメントは、その後、正しいブループリントとマッチングして処理されます。

現在、画像はプロジェクトごとに 1 つのブループリント定義のみをサポートしています。画像ファイルタイプの JPG と PNG は、それぞれのコンテンツに基づいて画像として扱われる場合とスキャンされたドキュメントとして扱われる場合があります。ドキュメントのカスタム出力を処理する際には、画像に対してカスタムブループリントを作成することを推奨します。これにより、BDA はテキストを含む画像ファイルに対して必要な出力を提供します。

オーディオファイルも、プロジェクトごとに 1 つのブループリント定義のみをサポートしています。