

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 飛輪資料湖
<a name="flywheels-datalake"></a>

當您建立飛輪時，Amazon Comprehend 會在您的帳戶中建立資料湖，以包含所有飛輪資料，例如模型版本所需的輸入和輸出資料。

Amazon Comprehend 會在您在建立飛輪時指定的 Amazon S3 位置建立資料湖。您可以將位置指定為 Amazon S3 儲存貯體，或指定為 Amazon S3 儲存貯體中的新資料夾。

## 資料湖資料夾結構
<a name="flywheels-datalake-folders"></a>

Amazon Comprehend 建立資料湖時，會在 Amazon S3 位置設定下列資料夾結構。

**警告**  
Amazon Comprehend 會管理資料湖資料夾組織和內容。一律使用 Amazon Comprehend API 操作來修改資料湖資料夾，否則您的飛輪可能無法正常運作。

```
  Document Pool
  Annotations Pool
  Staging
  Model Datasets
    (data for each version of the model)
    VersionID-1
      Training
      Test
      ModelStats
    VersionID-2
      Training
      Test
      ModelStats
```

若要檢視模型版本的訓練評估，請執行下列步驟：

1. 在資料湖的根層級開啟名為**模型資料集**的資料夾。此資料夾包含每個模型版本的子資料夾。

1. 開啟感興趣的模型版本資料夾。

1. 開啟名為 **ModelStats** 的資料夾，以檢視模型的統計資料。

## 資料湖管理
<a name="flywheels-datalake-mgmt"></a>

Amazon Comprehend 會代表您執行下列任務來管理資料湖：
+ 定義資料湖的資料夾結構，並將資料集擷取至適當的資料夾。
+ 管理訓練模型所需的輸入文件 （例如文字檔案和註釋檔案）。
+ 管理與每個模型版本相關聯的訓練和評估輸出資料。
+ 管理存放在資料湖中檔案的加密。

Amazon Comprehend 會執行資料湖的所有資料建立和更新操作。您可以保留資料湖中資料的完整存取權。例如：
+ 您可以完整存取資料湖的內容。
+ 在您刪除飛輪之後，資料湖仍然可用。
+ 您可以為包含資料湖的 Amazon S3 儲存貯體設定存取日誌。
+ 您可以為資料提供加密金鑰。您可以在建立飛輪時指定這些項目。

 建議遵循下列最佳實務：
+ 不要手動將您自己的資料夾或檔案新增至資料湖。請勿修改或刪除資料湖中的任何檔案。
+ 一律使用 Amazon Comprehend 建立和更新操作來新增或修改資料湖中的資料。例如，使用 `CreateDataset` 提供訓練或測試資料`StartFlywheelIteration`，並產生模型版本的評估資料。
+ 資料湖結構可能會隨著時間演進。請勿建立明確依賴資料湖結構的下游指令碼或程式。
+ 當您提供飛輪的資料湖位置時，建議您為所有飛輪相關的資料建立通用字首，或為每個飛輪使用不同的字首。我們不建議使用一個飛輪的完整資料湖路徑做為另一個飛輪的字首。