

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# フライホイールのデータレイク
<a name="flywheels-datalake"></a>

フライホイールが作成されると、Amazon Comprehend は、モデルのすべてのバージョンに必要な入出力データなど、すべてのフライホイールデータを格納するためのデータレイクをアカウントに作成します。

Amazon Comprehend は、フライホイールの作成時に指定された Amazon S3 上の場所にデータレイクを作成します。場所は Amazon S3 バケットまたは Amazon S3 バケット内の新規フォルダとして指定できます。

## データレイクのフォルダ構造
<a name="flywheels-datalake-folders"></a>

Amazon Comprehend は、データレイクを作成すると Amazon S3 上の場所に次のフォルダ構造をセットアップします。

**警告**  
Amazon Comprehend は、データレイクのフォルダ編成とコンテンツを管理します。データレイクのフォルダの変更には、必ず Amazon Comprehend API オペレーションを使用してください。さもないと、フライホイールが正しく動作しない場合があります。

```
  Document Pool
  Annotations Pool
  Staging
  Model Datasets
    (data for each version of the model)
    VersionID-1
      Training
      Test
      ModelStats
    VersionID-2
      Training
      Test
      ModelStats
```

モデルバージョンのトレーニング評価を確認するには、以下の手順を実行します。

1. データレイクのルートレベルにある **Model Datasets** という名前のフォルダを開きます。このフォルダーには、モデルの各バージョンのサブフォルダーが含まれます。

1. 目的のモデルバージョンが入っているフォルダーを開きます。

1. **ModelStats** という名前のフォルダーを開いて、モデルの統計情報を表示します。

## データレイクの管理
<a name="flywheels-datalake-mgmt"></a>

Amazon Comprehend は代わりに以下のタスクを自動的に実行してデータレイクを管理します。
+ データレイクのフォルダ構造を定義し、データセットを適切なフォルダに取り込む。
+ モデルのトレーニングに必要な入力ドキュメント (テキストファイルやアノテーションファイルなど) を管理する。
+ モデルの各バージョンに関連付けられているトレーニングと評価の出力データを管理する。
+ データレイクに保存されているファイルの暗号化を管理する。

Amazon Comprehend は、データレイク用のデータの作成および更新オペレーションのすべてを実行します。データレイク内のデータへの完全なアクセス権が必要です。例えば、次のようになります。
+ データレイクのすべてのコンテンツへの完全なアクセス権が必要です。
+ これによりフライホイールの削除後も、データレイクを引き続き利用できます。
+ データレイクを含む Amazon S3 バケットに関するアクセスログを設定できます。
+ データに対する暗号化キーを指定できます。これらはフライホイールのを作成時に指定します。

 推奨されるベストプラクティスを以下に示します:
+ ご自分のフォルダやファイルをデータレイクに手動で追加しない。データレイク内のファイルを変更および削除しない。
+ データレイク内のデータを追加または変更するときは、必ず Amazon Comprehend の作成および更新オペレーションを使用する。例えば、 トレーニング用データやテスト用データの提供に `CreateDataset`、 モデルのバージョンの評価データの生成に `StartFlywheelIteration` を使用できます。
+ データレイクの構造は、時間の経過とともに進化する場合があります。明示的にデータレイク構造に依存するダウンストリームスクリプトやプログラムを作成しない。
+ フライホイールにデータレイクの場所を指定する場合は、すべてのフライホイールに関連するデータに共通のプレフィックスを作成するか、フライホイールごとに異なるプレフィックスを使用することをお勧めします。あるフライホイールの完全なデータレイクパスを別のフライホイールのプレフィックスとして使用しないでください。