Amazon Managed Service for Apache Flink (Amazon MSF) は、以前は Amazon Kinesis Data Analytics for Apache Flink と呼ばれていました。
翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
リアルタイムベクトル埋め込みブループリント - よくある質問
リアルタイムベクトル埋め込みブループリントに関する次のよくある質問を確認します。リアルタイムベクトル埋め込みブループリントの詳細については、「Real-time vector embedding blueprints」を参照してください。
よくある質問
ベクトル検索コレクション、ベクトルインデックスを使用し、OpenSearch Serverless コレクションにベクトルフィールドを追加する必要があるのはなぜですか?
Amazon MSK クラスターと OpenSearch コレクションを異なる VPC またはサブネットに配置することはできますか?
Managed Service for Apache Flink アプリケーションをデプロイすると、Amazon MSK トピックのどの時点からメッセージの読み取りが開始されますか?
AWS CloudFormation テンプレートを変更して Managed Service for Apache Flink アプリケーションを更新できますか?
このブループリントはどのような AWS リソースを作成しますか?
アカウントにデプロイされたリソースを検索するには、 AWS CloudFormation コンソールに移動し、Managed Service for Apache Flink アプリケーションに指定した名前で始まるスタック名を特定します。[リソース] タブを選択して、スタックの一部として作成されたリソースを確認します。以下は、スタックが作成するキーリソースです。
-
リアルタイムベクトル埋め込みの Managed Service for Apache Flink アプリケーション
-
リアルタイムベクトル埋め込みアプリケーションのソースコードを保持するための Amazon S3 バケット
-
ログを保存するための CloudWatch のロググループとログストリーム
-
リソースをフェッチおよび作成するための Lambda 関数
-
Lambda 用の IAM ロールとポリシー、Managed Service for Apache Flink アプリケーション、Amazon Bedrock と Amazon OpenSearch Service へのアクセス
-
Amazon OpenSearch Service のデータアクセスポリシー
-
Amazon Bedrock と Amazon OpenSearch Service にアクセスするための VPC エンドポイント
AWS CloudFormation スタックのデプロイが完了した後のアクションは何ですか?
AWS CloudFormation スタックのデプロイが完了したら、 Managed Service for Apache Flink コンソールにアクセスし、設計図 Managed Service for Apache Flink アプリケーションを見つけます。[構成] タブを選択し、すべてのランタイムプロパティが正しく設定されていることを確認します。次のページにオーバーフローする可能性があります。設定に自信が持てたら、[実行] を選択します。アプリケーションはトピックからのメッセージの取り込みを開始します。
新しいリリースを確認するには、「https://github.com/awslabs/real-time-vectorization-of-streaming-data/releases
ソース Amazon MSK トピック内のデータ構造はどのようにすべきですか?
現在、構造化ソースデータと非構造化ソースデータをサポートしています。
-
非構造化データは、
source.msk.data.typeのSTRINGによって示されます。データは受信メッセージからそのまま読み込まれます。 -
現在、
source.msk.data.typeでJSONが示す構造化 JSON データをサポートしています。データは常に JSON 形式である必要があります。アプリケーションが不正な形式の JSON を受信すると、アプリケーションは失敗します。 -
ソースデータ型として JSON を使用する場合は、すべてのソーストピックのすべてのメッセージが有効な JSON であることを確認します。この設定で JSON オブジェクトを含まないトピックを 1 つ以上サブスクライブすると、アプリケーションは失敗します。1 つ以上のトピックに構造化データと非構造化データが混在している場合は、Managed Service for Apache Flink アプリケーションでソースデータを非構造化として設定することをお勧めします。
埋め込むメッセージの一部を指定できますか?
-
source.msk.data.typeがSTRINGである非構造化入力データの場合、アプリケーションは常にメッセージ全体を埋め込み、そのメッセージ全体を設定された OpenSearch インデックスに保存します。 -
source.msk.data.typeがJSONである構造化入力データの場合、埋め込み用に JSON オブジェクトのどのフィールドを選択するかを指定するようにembed.input.config.json.fieldsToEmbedを設定できます。これは最上位の JSON フィールドでのみ機能し、ネストされた JSON や JSON 配列を含むメッセージでは機能しません。「.*」を使用して JSON 全体を埋め込みます。
複数の Amazon MSK トピックからデータを読み取ることはできますか?
はい、このアプリケーションで複数の Amazon MSK トピックからデータを読み取ることができます。すべてのトピックのデータは同じタイプ (STRING または JSON) である必要があります。そうしないと、アプリケーションが失敗する可能性があります。すべてのトピックのデータは、常に 1 つの OpenSearch インデックスに保存されます。
正規表現を使用して Amazon MSK トピック名を設定できますか?
source.msk.topic.names は正規表現のリストをサポートしていません。トピック名のカンマ区切りリスト、またはすべてのトピックを含めるための .* 正規表現のいずれかをサポートしています。
Amazon MSK トピックから読み取ることができるメッセージの最大サイズを教えてください。
処理できるメッセージの最大サイズは、Amazon Bedrock InvokeModel 本文制限によって制限されており、現在は 25,000,000 に設定されています。詳細については、「InvokeModel」を参照してください。
どのタイプの OpenSearch がサポートされていますか?
OpenSearch ドメインとコレクションの両方がサポートされています。OpenSearch コレクションを使用している場合は、ベクトルコレクションを使用し、このアプリケーションに使用するベクトルインデックスを作成してください。これにより、OpenSearch ベクトルデータベース機能を使用してデータをクエリできます。詳細については、「Amazon OpenSearch Service のベクトルデータベース機能の説明
ベクトル検索コレクション、ベクトルインデックスを使用し、OpenSearch Serverless コレクションにベクトルフィールドを追加する必要があるのはなぜですか?
OpenSearch Serverless のベクトル検索コレクションタイプは、スケーラブルで高性能な類似検索機能を提供します。最新の機械学習 (ML) を活用した検索エクスペリエンスや生成 AI アプリケーションの構築が効率化されます。詳細については、「Working with vector search collections」を参照してください。
ベクトルフィールドのディメンションとして設定すべきものは何ですか?
使用する埋め込みモデルに基づいてベクトルフィールドのディメンションを設定します。次の表を参照して、それぞれのドキュメントからこれらの値を確認します。
| Amazon Bedrock ベクトル埋め込みモデル名 | モデルが提供する出力ディメンションのサポート |
|---|---|
|
Amazon Titan Text Embeddings V1 |
1,536 |
|
Amazon Titan Text Embeddings V2 |
1,024 (デフォルト)、384、256 |
|
Amazon Titan Multimodal Embeddings G1 |
1,024 (デフォルト)、384、256 |
|
Cohere Embed English |
1,024 |
|
Cohere Embed Multilingual |
1,024 |
設定された OpenSearch インデックスの出力はどのようなものですか?
OpenSearch インデックス内のすべてのドキュメントには、次のフィールドが含まれます。
-
original_data: 埋め込みの生成に使用されたデータ。STRING タイプの場合、それはメッセージ全体です。JSON オブジェクトの場合、埋め込みに使用された JSON オブジェクトです。メッセージ内の JSON 全体でも、JSON 内の指定されたフィールドでもかまいません。例えば、受信メッセージから埋め込まれるように名前を選択した場合、出力は次のようになります。
"original_data": "{\"name\":\"John Doe\"}" -
embedded_data: Amazon Bedrock によって生成された埋め込みのベクトル浮動小数点配列
-
date: ドキュメントが OpenSearch に保存された UTC タイムスタンプ
OpenSearch インデックスに保存されているドキュメントに追加するメタデータフィールドを指定できますか?
いいえ。現在、OpenSearch インデックスに保存されている最終ドキュメントへのフィールドの追加はサポートされていません。
OpenSearch インデックスに重複するエントリを想定すべきですか?
アプリケーションの設定方法によっては、インデックスに重複するメッセージが表示される場合があります。一般的な理由の 1 つは、アプリケーションの再起動です。デフォルトでは、アプリケーションはソーストピックの最も古いメッセージからの読み取りを開始するように設定されています。構成を変更すると、アプリケーションは再起動し、トピック内のすべてのメッセージを再処理します。再処理を回避するには、source.msk.starting.offset の使用方法に関するドキュメントを参照して、アプリケーションの開始オフセットを正しく設定します。
複数の OpenSearch インデックスにデータを送信できますか?
いいえ。このアプリケーションは、単一の OpenSearch インデックスへのデータの保存をサポートしています。複数のインデックスにベクトル化出力を設定するには、個別の Managed Service for Apache Flink アプリケーションをデプロイする必要があります。
複数のリアルタイムベクトル埋め込みアプリケーションを 1 つの AWS アカウントにデプロイできますか?
はい。すべてのアプリケーションに一意の名前がある場合、複数のリアルタイムベクトル埋め込み Managed Service for Apache Flink アプリケーションを 1 つの AWS アカウント にデプロイできます。
複数のリアルタイムベクトル埋め込みアプリケーションが同じデータソースまたはシンクを使用できますか?
はい。同じトピックからデータを読み取るか、同じインデックスにデータを保存する複数のリアルタイムベクトル埋め込み Managed Service for Apache Flink アプリケーションを作成できます。
アプリケーションはクロスアカウント接続をサポートしていますか?
いいえ。アプリケーションが正常に実行されるには、Amazon MSK クラスターと OpenSearch コレクションが、Managed Service for Apache Flink アプリケーションをセットアップしようとしている AWS アカウント のと同じ にある必要があります。
アプリケーションはクロスリージョン接続をサポートしていますか?
いいえ。アプリケーションでは、Amazon MSK クラスターと OpenSearch コレクションを使用して、Managed Service for Apache Flink アプリケーションの同じリージョンにのみ Managed Service for Apache Flink アプリケーションをデプロイできます。
Amazon MSK クラスターと OpenSearch コレクションを異なる VPC またはサブネットに配置することはできますか?
はい。異なる VPC やサブネットにある Amazon MSK クラスターと OpenSearch コレクションでも、同じ AWS アカウント内であればサポートしています。セットアップが正しいことを確認するには、(一般的な MSF のトラブルシューティング) を参照してください。
アプリケーションではどのような埋め込みモデルがサポートされていますか?
現在、アプリケーションは Bedrock でサポートされているすべてのモデルをサポートしています。具体的には次のとおりです。
-
Amazon Titan Embeddings G1 - Text
-
Amazon Titan Text Embeddings V2
-
Amazon Titan Multimodal Embeddings G1
-
Cohere Embed English
-
Cohere Embed Multilingual
ワークロードに基づいてアプリケーションのパフォーマンスをファインチューニングできますか?
はい。アプリケーションのスループットは、さまざまな要因によって異なります。これらはすべてお客様が制御できます。
-
AWS MSF KPUs: アプリケーションは、デフォルトの並列処理係数 2 と KPU 1 あたりの並列処理でデプロイされ、自動スケーリングが有効になっています。ただし、ワークロードに応じて Managed Service for Apache Flink アプリケーションのスケーリングを設定することをお勧めします。詳細については、「Review Managed Service for Apache Flink application resources」を参照してください。
-
Amazon Bedrock: 選択した Amazon Bedrock オンデマンドモデルに基づいて、異なるクォータが適用される場合があります。Bedrock のサービスクォータを確認して、サービスが処理できるワークロードを把握します。詳細については、「Quotas for Amazon Bedrock」を参照してください。
-
Amazon OpenSearch Service: さらに、状況によっては、OpenSearch がパイプラインのボトルネックであることに気付く場合があります。スケーリングの詳細については、OpenSearch のスケーリングの「Sizing Amazon OpenSearch Service domains」を参照してください。
サポートされている Amazon MSK 認証タイプは何ですか?
IAM MSK 認証タイプのみをサポートしています。
sink.os.bulkFlushIntervalMillis とは何ですか? どのように設定すればよいですか?
Amazon OpenSearch Service にデータを送信するとき、一括フラッシュ間隔は、アクションの数やリクエストのサイズに関係なく、一括リクエストが実行される間隔を指します。デフォルト値は 1 ミリ秒に設定されています。
フラッシュ間隔を設定すると、データが適時にインデックス作成されるようにできますが、設定が低すぎるとオーバーヘッドが増加する可能性もあります。フラッシュ間隔を選択するときは、ユースケースとタイムリーなインデックス作成の重要性を考慮してください。
Managed Service for Apache Flink アプリケーションをデプロイすると、Amazon MSK トピックのどの時点からメッセージの読み取りが開始されますか?
アプリケーションは、アプリケーションのランタイム構成で設定された source.msk.starting.offset 設定で指定されたオフセットで Amazon MSK トピックからのメッセージの読み取りを開始します。source.msk.starting.offset が明示的に設定されていない場合、アプリケーションのデフォルト動作は、トピック内で最も古い利用可能なメッセージから読み取りを開始します。
source.msk.starting.offset の使用方法は?
目的の動作に基づいて、ource.msk.starting.offset を次のいずれかの値に明示的に設定します。
-
EARLIEST: デフォルト設定で、パーティション内の最も古いオフセットから読み取ります。これは、特に以下の場合に適しています。
-
新しく作成した Amazon MSK トピックとコンシューマーアプリケーション。
-
状態を構築または再構築するには、データを再生する必要があります。これは、イベントソーシングパターンを実装する場合や、データ履歴の完全なビューを必要とする新しいサービスを初期化する場合に当てはまります。
-
-
LATEST: Managed Service for Apache Flink アプリケーションは、パーティションの末尾からメッセージを読み込みます。このオプションは、新しく生成されるメッセージだけを扱い、過去のデータを処理する必要がない場合にお勧めします。この設定では、コンシューマーは既存のメッセージを無視し、アップストリームプロデューサーによって発行された新しいメッセージのみを読み込みます。
-
COMMITTED: Managed Service for Apache Flink アプリケーションは、コンシューマーグループのコミット済みオフセットからメッセージの消費を開始します。コミットされたオフセットが存在しない場合、EARLIEST リセット戦略が使用されます。
どのようなチャンク化戦略がサポートされていますか?
langchainmaxSegmentSizeInChars より大きい場合にのみ適用されます。次の 5 つのチャンク化タイプがサポートされています。
-
SPLIT_BY_CHARACTER: 各チャンクには可能な限り文字を納めますが、チャンク長は maxSegmentSizeInChars を上限とします。空白文字を認識しないため、単語が途中で切れてしまうことがあります。 -
SPLIT_BY_WORD: 空白文字を見つけて、それを基準にチャンク化します。単語が途中で切れることはありません。 -
SPLIT_BY_SENTENCE: 文の境界は、Apache OpenNLP ライブラリの英語文モデルを用いて検出されます。 -
SPLIT_BY_LINE: 改行文字を検出し、それを基準にチャンク化します。 -
SPLIT_BY_PARAGRAPH: 連続する改行文字を検出し、それを基準にチャンク化します。
分割戦略は前の順序に従ってフォールバックし、SPLIT_BY_PARAGRAPH のようなより大きなチャンク化戦略は SPLIT_BY_CHARACTER にフォールバックします。例えば、SPLIT_BY_LINE を使用する場合、行が長すぎると、行が長すぎると、その行は文ごとにサブチャンク化され、各チャンクには可能な限り多くの文が収められます。長い文がある場合は、単語レベルでチャンク化されます。単語が長すぎると、文字単位で分割されます。
ベクトルデータストアのレコードを読み取るにはどうすればよいですか?
-
source.msk.data.typeがSTRINGの場合-
original_data: Amazon MSK メッセージからの元の文字列全体。
-
embedded_data: 空でない場合 (チャンク化が適用された場合)、
chunk_dataから埋め込みベクトルが作成され、チャンク化が適用されていない場合は、original_dataから埋め込みベクトルが作成されます。 -
chunk_data: 元のデータがチャンク化された場合にのみ存在します。
embedded_dataでの埋め込みの作成に使用された元のメッセージのチャンクが含まれます。
-
-
source.msk.data.typeがJSONの場合-
original_data: JSON キーフィルタリングを適用した後の、Amazon MSK メッセージからの元の JSON 全体。
-
embedded_data: 空でない場合 (チャンク化が適用された場合)、
chunk_dataから埋め込みベクトルが作成され、チャンク化が適用されていない場合は、original_dataから埋め込みベクトルが作成されます。 -
chunk_key: 元のデータがチャンク化された場合にのみ存在します。チャンクが
original_dataにある JSON キーが含まれます。例えば、original_dataの例では、ネストされたキーまたはメタデータのjsonKey1.nestedJsonKeyAようになります。 -
chunk_data: 元のデータがチャンク化された場合にのみ存在します。
embedded_dataでの埋め込みの作成に使用された元のメッセージのチャンクが含まれます。
-
はい、このアプリケーションで複数の Amazon MSK トピックからデータを読み取ることができます。すべてのトピックのデータは同じタイプ (STRING または JSON) である必要があります。そうしないと、アプリケーションが失敗する可能性があります。すべてのトピックのデータは、常に 1 つの OpenSearch インデックスに保存されます。
ソースコードの新しい更新はどこで確認できますか?
「https://github.com/awslabs/real-time-vectorization-of-streaming-data/releases
AWS CloudFormation テンプレートを変更して Managed Service for Apache Flink アプリケーションを更新できますか?
いいえ。 AWS CloudFormation テンプレートを変更しても、Managed Service for Apache Flink アプリケーションは更新されません。の新しい変更は AWS CloudFormation 、新しいスタックをデプロイする必要があることを意味します。
私の代わりにアプリケーションを AWS モニタリングおよび保守しますか?
いいえ。ユーザーに代わってこのアプリケーションをモニタリング、スケーリング、更新、またはパッチ AWS 適用しません。
このアプリケーションはデータを AWS アカウントの外部に移動させますか?
Managed Service for Apache Flink アプリケーションによって読み取りおよび保存されるすべてのデータは、 内にとどまり AWS アカウント 、 アカウントから出ることはありません。