機能パラメータファインチューニング Output ウォーターマーク検出プロンプトエンジニアリングガイドライン

Amazon Titan Image Generator G1 モデル

Amazon Titan Image Generator G1 は、ユーザーがさまざまな方法でイメージを生成および編集できるようにするイメージ生成モデルです。ユーザーは、自然言語プロンプトを入力するだけで、テキストベースの説明に一致する画像を作成できます。さらに、マスクを必要とせずにテキストベースのプロンプトを適用したり、画像マスクを使用して画像の特定部分を編集したりするなど、既存の画像をアップロードして編集できます。このモデルは、画像の境界を拡張するアウトペインティングと、欠損している領域を修復するインペインティングの対応もします。オプションのテキストプロンプトに基づいて画像のバリエーションを生成する機能や、ユーザーがファインチューニングせずに、参照画像を使用してスタイルを転送したり、複数のリファレンスからスタイルを組み合わせることができる、即時にカスタマイズできるオプションを提供します。

Amazon Titan Image Generator G1 v2 には、いくつかの高度な機能が追加されています。これにより、ユーザーはリファレンスイメージを使用してイメージ生成をガイドできます。ここでは、テキストプロンプトに従いながら、出力イメージがリファレンスイメージのレイアウトと構成と一致します。また、自動背景削除機能も搭載されており、ユーザー入力なしで、複数のオブジェクトを含む画像から背景を削除します。このモデルでは、生成された画像のカラーパレットを正確に制御するため、ユーザーは追加のファインチューニングなしでブランドのビジュアルアイデンティティを維持できます。さらに、被写体の一貫性機能により、ユーザーは参照画像を使用してモデルをファインチューニングし、生成された画像で選択した被写体 (ペット、靴、ハンドバッグなど) を保持することができます。この包括的な一連の機能により、ユーザーは創造的な可能性を解き放ち、想像力豊かなビジョンを実現することができます。

Amazon Titan Image Generator G1 モデルプロンプトエンジニアリングガイドラインの詳細については、「Amazon Titan Image Generator Prompt Engineering Best Practices」を参照してください。

AI の責任ある使用に関するベストプラクティスの継続的なサポートのため、Titan の基盤モデル (FM) はデータ内の有害なコンテンツを検出して削除し、ユーザー入力に含まれる不適切なコンテンツを拒否し、不適切なコンテンツ (ヘイトスピーチ、冒涜、暴力など) を含むモデル出力をフィルタリングするように構築されています。Titan Image Generator FM は、目に見えないウォーターマークと C2PA メタデータを生成されたすべての画像に追加します。

Amazon Bedrock コンソールのウォーターマーク検出機能を使用するか、Amazon Bedrock ウォーターマーク検出 API (プレビュー) を呼び出して、画像に Titan Image Generator のウォーターマークが含まれているかどうかを確認できます。Content Credentials Verify などのサイトを使用して、画像が Titan Image Generator によって生成されたかどうかを確認することもできます。

Amazon Titan Image Generator v2 の概要

モデル ID – amazon.titan-image-generator-v2:0
最大入力文字数 – 512 文字
最大入力画像サイズ – 5 MB (一部の特定の解像度のみ対応)
イン/アウトペインティング、背景削除、画像の条件付け、カラーパレットを使用した最大画像サイズ – 1,408 x 1,408 ピクセル
イメージバリエーションを使用した最大イメージサイズ – 1,408 x 1,408 ピクセル (入力イメージはこの制限に収まるようにサイズ変更されます)
言語 – 英語
出力タイプ – 画像
サポートされている画像タイプ – JPEG、JPG、PNG
推論タイプ – オンデマンド、プロビジョンドスループット
サポートされているユースケース – イメージ生成、画像編集、画像バリエーション、背景削除、カラーガイド付きコンテンツ

機能

テキストから画像 (T2I) 生成 – テキストプロンプトを入力し、出力として新しい画像を生成します。生成された画像には、テキストプロンプトで説明されている概念が取り込まれています。
T2I モデルのファインチューニング – 複数の画像をインポートして独自のスタイルやパーソナライゼーションを取り込み、核となる T2I モデルをファインチューニングします。ファインチューニングされたモデルでは、特定のユーザーのスタイルやパーソナライゼーションに合わせた画像が生成されます。
画像編集オプション – 含まれるもの: インペインティング、アウトペインティング、バリエーションの生成、画像マスクなしの自動編集。
インペインティング – 画像とセグメンテーションマスクを入力 (ユーザーからの入力またはモデルによって推定された入力) として使用し、マスク内の領域を再構成します。インペインティングを使用して、マスクされている要素を削除し、背景ピクセルに置き換えることができます。
アウトペインティング – 画像とセグメンテーションマスクを入力 (ユーザーからの入力またはモデルによって推定された入力) として使用し、領域をシームレスに拡張する新しいピクセルを生成します。正確なアウトペインティングを使用すると、画像を境界まで拡張するときにマスクされた画像のピクセルが維持されます。デフォルトのアウトペイントを使用すると、セグメンテーション設定に基づいてマスクされた画像のピクセルが画像の境界まで拡張されます。
画像バリエーション – 1～5 個の画像とオプションのプロンプトを入力として使用します。入力画像の内容を保持したまま、スタイルや背景を変えて新しい画像を生成します。
画像の条件付け – (V2 のみ) 入力された参照画像を使用してイメージ生成をガイドします。モデルは、テキストプロンプトに従いながら、参照画像のレイアウトと構図と一致する出力画像を生成します。
被写体の一貫性 – (V2 のみ) 被写体の一貫性により、ユーザーは参照画像を使用してモデルを微調整し、生成された画像に選択した被写体 (ペット、靴、ハンドバッグなど) を保持できます。
カラーガイド付きコンテンツ – (V2 のみ) プロンプトとともに 16 進数カラーコードのリストを指定することができます。1～10 の 16 進数カラーコードを指定できます。Titan Image Generator G1 V2 によって返される画像には、ユーザーが指定したカラーパレットが組み込まれます。
背景削除 – (V2 のみ) 入力画像内の複数のオブジェクトを自動的に識別し、背景を削除します。出力画像の背景は透明です。
コンテンツの出典 – Content Credentials Verify などのサイトを使用して、画像が Titan Image Generator によって生成されたかどうかを確認します。これは、メタデータが削除されていない限り、画像が生成されたことを示します。

注記

微調整されたモデルを使用している場合、API やモデルのインペインティング、アウトペインティング、カラーパレット機能は使用できません。

パラメータ

Amazon Titan Image Generator G1 モデル推論パラメータの詳細については、「Amazon Titan Image Generator G1 モデル推論パラメータ」を参照してください。

ファインチューニング

Amazon Titan Image Generator G1 モデルの微調整の詳細については、以下のページを参照してください。

Amazon Titan Image Generator G1 モデルの微調整と料金

このモデルは、次の数式例を使用して、ジョブあたりの合計料金を算出します。

合計料金 = ステップ * バッチサイズ * 表示された画像 1 枚あたりの料金

最小値 (自動):

最小ステップ (自動) - 500
最小バッチサイズ - 8
デフォルトの学習率 - 0.00001
表示された画像 1 枚あたりの料金 - 0.005

ハイパーパラメータ設定の微調整

ステップ – モデルが各バッチに公開される回数。デフォルトのステップカウントは設定されていません。10～40,000 の数値、または文字列の値「自動」を選択する必要があります。

ステップ設定 - 自動 – Amazon Bedrock は、トレーニング情報に基づいて妥当な値を決定します。このオプションを選択すると、トレーニングコストよりもモデルのパフォーマンスが優先されます。ステップの数は自動的に決定されます。この数は、通常、データセットに基づいて 1,000～8,000 になります。ジョブコストは、モデルをデータに公開するために使用されるステップの数に影響を受けます。ジョブコストの計算方法については、料金詳細の料金の例セクションを参照してください。([自動] が選択した場合のステップ数と画像数の関係については、上の表の例を参照してください。)

ステップ設定 - カスタム - Bedrock がカスタムモデルをトレーニングデータに公開するステップ数を入力できます。この値は 10～40,000 の範囲で指定できます。ステップカウント値を低くすることで、モデルによって生成された画像あたりのコストを削減できます。

バッチサイズ – モデルパラメータの更新前に処理されたサンプル数。この値は 8～192 で、8 の倍数です。

学習率 – トレーニングデータの各バッチの後にモデルパラメータが更新される速度。これは 0～1 の間の浮動小数点数の値です。学習率はデフォルトで 0.00001 に設定されています。

ファインチューニング手順の詳細については、「Submit a model customization job」を参照してください。

Output

Amazon Titan Image Generator G1 モデルは、出力イメージのサイズと品質を使用して、イメージの料金を決定します。モデルには、サイズに基づいて 2 つの料金セグメントがあります。1 つは 512*512 イメージ用、もう 1 つは 1024*1024 イメージ用です。料金は、画像サイズ (高さ x 幅) が 512 x 512 以下か 512 x 512 より大きいかによって決まります。

Amazon Bedrock の料金の詳細については、「Amazon Bedrock の料金」を参照してください。

ウォーターマーク検出

注記

Amazon Bedrock コンソールと API のウォーターマーク検出は、パブリックプレビューリリースで利用でき、Titan Image Generator G1 と Amazon Nova Canvas から生成されたウォーターマークを検出します。この機能は現在、us-west-2 と us-east-1 のリージョンのみで利用可能です。ウォーターマーク検出は、これらのモデルによって生成されたウォーターマークの非常に正確な検出です。オリジナル画像から変更された画像では、検出結果の精度が低下する可能性があります。

これらのモデルは、生成されたすべてのイメージに目に見えないウォーターマークを追加して、誤った情報の拡散を減らし、著作権保護を支援し、コンテンツの使用状況を追跡します。ウォーターマーク検出は、イメージがこのウォーターマークの存在をチェックする Titan Image Generator G1 または Amazon Nova Canvas によって生成されたかどうかを確認するのに役立ちます。

注記

ウォーターマーク検出 API はプレビュー中であり、変更される場合があります。SDK を使用するために仮想環境を作成することをお勧めします。ウォーターマーク検出 API は最新の SDK では使用できないため、ウォーターマーク検出 API を含むバージョンをインストールする前に、仮想環境から最新バージョンの SDK をアンインストールすることをお勧めします。

イメージをアップロードして、Titan Image Generator G1 または Amazon Nova Canvas のウォーターマークがイメージに存在するかどうかを検出できます。コンソールを使用して、次のステップに従ってウォーターマークを検出します。

ウォーターマークを検出するには:

「Amazon Bedrock コンソール」をクリックして、 Amazon Bedrock コンソールを開きます。
Amazon Bedrock のナビゲーションペインから [概要] を選択します。[構築とテスト] のタブを選択します。
[セーフガード] セクションで、[ウォーターマーク検出] に移動し、[ウォーターマーク検出を表示] を選択します。
[画像をアップロード] を選択し、JPG または PNG 形式のファイルを見つけます。許可される最大ファイルサイズは 18 MB です。
アップロードされると、画像のサムネイルが、名前、ファイルサイズ、最終変更日とともに表示されます。[アップロード] セクションから画像を削除または置き換えるには、X を選択します。
[分析] を選択して、ウォーターマーク検出分析を開始します。
画像は [結果] でプレビューされ、ウォーターマークが検出された場合は画像下に [ウォーターマークが検出されました] と表示され、画像全体にバナーが表示されます。ウォーターマークが検出されない場合、画像下に [ウォーターマークは検出されませんでした] と表示されます。
次の画像を読み込むには、アップロードセクションの画像のサムネイルで X を選択し、分析する新しい画像を選択します。

プロンプトエンジニアリングガイドライン

マスクプロンプト – このアルゴリズムはピクセルをコンセプトに分類します。マスクする画像の領域をマスクプロンプトの解釈に基づいて分類するためのテキストプロンプトを、ユーザーが入力できます。プロンプトオプションを使うと、より複雑なプロンプトを解釈して、マスクをセグメンテーションアルゴリズムにエンコードできます。

画像マスク – 画像マスクを使用してマスク値を設定することもできます。画像マスクをマスクのプロンプト入力と組み合わせると、正解率が向上します。画像マスクファイルは、以下のパラメータに準拠している必要があります。

マスク画像の値は 0 (黒) または 255 (白) でなければなりません。値が 0 の画像マスク領域は、ユーザープロンプトによる画像または入力画像で再生成されます。
maskImage フィールドは Base64 でエンコードされた画像文字列である必要があります。
マスク画像は、入力画像と同じ寸法 (高さと幅が同じ) である必要があります。
入力画像とマスク画像には PNG または JPG ファイルのみを使用できます。
マスク画像には白黒のピクセル値のみを使用する必要があります。
マスク画像では RGB チャネルのみを使用できます (アルファチャネルはサポートされていません)。

Amazon Titan Image Generator プロンプトエンジニアリングの詳細については、「Amazon Titan Image Generator G1 models Prompt Engineering Best Practices」を参照してください。

一般的なプロンプトエンジニアリングガイドラインについては、「プロンプトエンジニアリングガイドライン」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

マルチモーダル埋め込み G1

レガシーページ