バッチロードのベストプラクティス - Amazon Timestream

Amazon Timestream for LiveAnalytics に類似した機能をご希望の場合は Amazon Timestream for InfluxDB をご検討ください。リアルタイム分析に適した、シンプルなデータインジェストと 1 桁ミリ秒のクエリ応答時間を特徴としています。詳細については、こちらを参照してください。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

バッチロードのベストプラクティス

次の条件と推奨事項に準拠している場合、バッチロードで最適な動作が得られます (高スループット)。

  1. 並列処理と取り込み速度を向上させるために、取り込み用に送信される CSV ファイルが小さい (特に、ファイルサイズが 100 MB~1 GB)。

  2. バッチロードの進行中は、同じテーブルに同時にデータを取り込まないようにする (WriteRecords API オペレーションやスケジュールされたクエリの使用など)。これによりスロットリングが発生する可能性があり、バッチロードタスクは失敗します。

  3. バッチロードタスクの実行中に、バッチロードで使用される S3 バケットからファイルを追加、変更、または削除しない。

  4. テーブルまたはソースから権限を削除または取り消したり、バッチロードタスクがスケジュールされているか進行中の S3 バケットをレポートしたりしない。

  5. カーディナリティの高いディメンション値のセットを持つデータを取り込む場合は、「マルチメジャーレコードのパーティショニングに関する推奨事項」のガイダンスに従う。

  6. 小さなファイルを送信して、データの正確性をテストする。バッチロードに送信されたデータについては、正確性に関係なく課金されます。料金の詳細については、「Amazon Timestream pricing」を参照してください。

  7. ActiveMagneticStorePartitions が 250 未満でない限り、バッチロードタスクを再開しない。ジョブがスロットリングされて失敗する可能性があります。同じデータベースに対して複数のジョブを同時に送信すると数が減ります。

コンソールのベストプラクティスは以下のとおりです。

  1. ビルダーは、マルチメジャーレコードに単一のメジャー名のみを使用する単純なデータモデリングにのみ使用します。

  2. より複雑なデータモデリングには、JSON を使用します。例えば、マルチメジャーレコードを使用するときに複数のメジャー名を使用する場合は、JSON を使用します。

他の Timestream for LiveAnalytics のベストプラクティスについては、「ベストプラクティス」を参照してください。