

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Data lakes dos flywheels
<a name="flywheels-datalake"></a>

Quando você cria um flywheel, o Amazon Comprehend cria um data lake em sua conta para conter todos os dados do flywheel, como os dados de entrada e saída necessários para as versões do modelo. 

O Amazon Comprehend cria o data lake no local do Amazon S3 que você especifica ao criar o flywheels. Você pode especificar o local como um bucket do Amazon S3 ou como uma nova pasta em um bucket do Amazon S3. 

## Estrutura de pastas do data lake
<a name="flywheels-datalake-folders"></a>

Quando o Amazon Comprehend cria o data lake, ele configura a seguinte estrutura de pastas no local do Amazon S3.

**Atenção**  
O Amazon Comprehend gerencia a organização e o conteúdo das pastas do data lake. Sempre use as operações da API do Amazon Comprehend para modificar as pastas do data lake, ou seu flywheel pode não funcionar corretamente.

```
  Document Pool
  Annotations Pool
  Staging
  Model Datasets
    (data for each version of the model)
    VersionID-1
      Training
      Test
      ModelStats
    VersionID-2
      Training
      Test
      ModelStats
```

Para visualizar a avaliação de treinamento de uma versão do modelo, execute estas etapas: 

1. Abra a pasta chamada **Conjunto de dados do modelo** no nível raiz do data lake. Essa pasta contém uma subpasta para cada versão do modelo. 

1. Abra a pasta da versão do modelo de interesse.

1. Abra a pasta nomeada **ModelStats**para ver as estatísticas do modelo.

## Gerenciamento do data lake
<a name="flywheels-datalake-mgmt"></a>

O Amazon Comprehend realiza as seguintes tarefas para gerenciar o data lake em seu nome:
+ Define a estrutura de pastas do data lake e ingere os conjuntos de dados nas pastas apropriadas.
+ Gerencia os documentos de entrada (como arquivos de texto e arquivos de anotações) necessários para treinar o modelo.
+ Gerencia os dados de saída de treinamento e avaliação associados a cada versão do modelo.
+ Gerencia a criptografia dos arquivos armazenados no data lake.

O Amazon Comprehend executa todas as operações de criação e atualização de dados para o data lake. Você retém o acesso total aos dados no data lake. Por exemplo:
+ Você tem acesso total ao conteúdo do data lake.
+ O data lake permanece disponível depois que você exclui o .flywheel
+ Você pode configurar os logs de acesso ao bucket do Amazon S3 que contém o data lake.
+ Você pode fornecer chaves de criptografia para os dados. Você as especifica ao criar um flywheel.

 Recomendamos seguir estas práticas recomendadas:
+ Não adicione suas próprias pastas ou arquivos ao data lake manualmente. Não modifique nem exclua nenhum arquivo no data lake.
+ Sempre use as operações de criação e atualização do Amazon Comprehend para adicionar ou modificar dados no data lake. Por exemplo, use `CreateDataset` para fornecer dados de treinamento ou teste e `StartFlywheelIteration` para gerar dados de avaliação para versões do modelo.
+ A estrutura do data lake pode evoluir com o tempo. Não crie scripts ou programas downstream que dependam explicitamente da estrutura do data lake. 
+ Ao fornecer uma localização de data lake para o flywheel, recomendamos criar um prefixo comum para dados relacionados a todos os flywheels ou usar um prefixo diferente para cada flywheel. Não recomendamos usar o caminho completo do data lake de um flywheel como prefixo para outro flywheel.