

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Criação de um modelo de PySpark análise
<a name="create-pyspark-analysis-template"></a>

**nota**  
Os parâmetros são cadeias de caracteres fornecidas pelo usuário que podem conter conteúdo arbitrário.  
Revise o código para garantir que os parâmetros sejam tratados com segurança para evitar comportamentos inesperados em sua análise.
Projete o manuseio de parâmetros para funcionar com segurança, independentemente dos valores dos parâmetros fornecidos no momento do envio.

**Pré-requisitos**

 Antes de criar um modelo de PySpark análise, você deve ter:
+ Uma associação em uma AWS Clean Rooms colaboração ativa
+ Acesso a pelo menos uma tabela configurada na colaboração ativa
+ Permissões para criar modelos de análise
+ Um script de usuário do Python e um ambiente virtual criado e armazenado no S3
  + O bucket do S3 tem o versionamento ativado. Para obter mais informações, consulte [Usando o controle de versão em buckets do](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html) S3
  + O bucket S3 pode calcular somas de verificação SHA-256 para artefatos carregados. Para obter mais informações, consulte [Usando somas de verificação](https://docs.aws.amazon.com/AmazonS3/latest/userguide/checking-object-integrity.html)
+ Permissões para ler código de um bucket do S3

  Para obter informações sobre como criar a função de serviço necessária, consulte[Crie uma função de serviço para ler o código de um bucket do S3 (função do modelo de PySpark análise)](setting-up-roles.md#create-role-pyspark-analysis-template).

O procedimento a seguir descreve o processo de criação de um modelo de PySpark análise usando o [AWS Clean Rooms console](https://console.aws.amazon.com/cleanrooms/home). Ele pressupõe que você já tenha criado um script de usuário e arquivos de ambiente virtual e armazenado seu script de usuário e arquivos de ambiente virtual em um bucket do Amazon S3.

**nota**  
O membro que cria o modelo de PySpark análise também deve ser o membro que recebe os resultados.

Para obter informações sobre como criar um modelo de PySpark análise usando o AWS SDKs, consulte a [Referência da AWS Clean Rooms API](https://docs.aws.amazon.com/clean-rooms/latest/apireference/Welcome.html).

**Para criar um modelo PySpark de análise**

1. Faça login no Console de gerenciamento da AWS e abra o [AWS Clean Rooms console](https://console.aws.amazon.com/cleanrooms/home) com o Conta da AWS que funcionará como criador da colaboração.

1. No painel de navegação à esquerda, escolha **Colaborações**.

1. Escolha a colaboração.

1. Na guia **Modelos**, vá para a seção **Modelos de análise criados por você**.

1. Escolha **Criar modelo de análise**.

1. Na página **Criar modelo de análise**, para **Detalhes**, 

   1. Insira um **Nome** para o modelo de análise.

   1. (Opcional) Insira uma **Descrição**.

   1. Em **Formatar**, escolha a **PySpark**opção.

1. Para **Definição**,

   1. Analise os **pré-requisitos** e certifique-se de que cada pré-requisito seja atendido antes de continuar.

   1. **Em Arquivo de ponto de entrada**, insira o bucket do S3 ou escolha **Procurar no S3**.

   1. (Opcional) Em **Arquivo de bibliotecas**, insira o bucket do S3 ou escolha **Procurar no S3**.

1. Para **Parâmetros — opcional**, se você quiser adicionar parâmetros para tornar seu modelo de análise reutilizável:

   1. Selecione **Add parameter (Adicionar parâmetro)**.

   1. Insira um **nome de parâmetro**.

      Os nomes dos parâmetros devem começar com uma letra ou sublinhado, seguido por caracteres alfanuméricos ou sublinhados.

   1. Para **Tipo**, **STRING** é selecionado automaticamente como o único tipo suportado para modelos de PySpark análise.

   1. (Opcional) Insira um **valor padrão** para o parâmetro.

      Se você fornecer um valor padrão, os executores de tarefas poderão usar esse valor ao executar trabalhos sem fornecer explicitamente um valor de parâmetro.

   1. Para adicionar mais parâmetros, escolha **Adicionar outro parâmetro** e repita as etapas anteriores.
**nota**  
Você pode definir até 50 parâmetros por modelo PySpark de análise. Cada valor de parâmetro pode ter até 1.000 caracteres.

1. Para **tabelas referenciadas na definição**, 
   + Se todas as tabelas referenciadas na definição tiverem sido associadas à colaboração:
     + Deixe a caixa de seleção **Todas as tabelas referenciadas na definição foram associadas à colaboração** marcada.
     + Em **Tabelas associadas à colaboração**, escolha todas as tabelas associadas que são referenciadas na definição. 
   + Se todas as tabelas referenciadas na definição não tiverem sido associadas à colaboração:
     + Desmarque a caixa de seleção **Todas as tabelas referenciadas na definição foram associadas à colaboração**.
     + Em **Tabelas associadas à colaboração**, escolha todas as tabelas associadas que são referenciadas na definição.
     + Em **Tabelas que serão associadas posteriormente**, insira o nome da tabela. 
     + Escolha **Listar outra tabela** para listar outra tabela.

1. Para **Configuração de mensagem de erro**, escolha uma das seguintes opções:
   + **Mensagens de erro básicas — retorna mensagens** de erro básicas sem expor os dados subjacentes. Recomendado para cargas de trabalho de produção.
   + **Mensagens de erro detalhadas — retorna mensagens** de erro detalhadas para uma solução de problemas mais rápida. Recomendado em ambientes de desenvolvimento e teste. Pode expor dados confidenciais, incluindo informações de identificação pessoal (PII).
**nota**  
Ao usar **mensagens de erro detalhadas**, todos os membros do provedor de dados devem aprovar essa configuração para o modelo.

1. Especifique as permissões **de acesso ao serviço** selecionando um **nome de função de serviço existente** na lista suspensa.

   1. A lista de perfis é exibida se você tiver permissões para listar funções.

      Se você não tiver permissões para listar perfis, insira o nome do recurso da Amazon (ARN) do perfil que você deseja usar.

   1. Para visualizar o perfil de serviço, selecione o link externo **Visualizar no IAM**.

      Se não houver perfis de serviço existentes, a opção de **Usar um perfil de serviço existente** não estará disponível.

      Por padrão, AWS Clean Rooms não tenta atualizar a política de função existente para adicionar as permissões necessárias. 
**nota**  
AWS Clean Rooms requer permissões para consultar de acordo com as regras de análise. Para obter mais informações sobre permissões para AWS Clean Rooms, consulte[AWS políticas gerenciadas para AWS Clean Rooms](security-iam-awsmanpol.md).
Se a função não tiver permissões suficientes para AWS Clean Rooms, você receberá uma mensagem de erro informando que a função não tem permissões suficientes para AWS Clean Rooms. A política de perfil deve ser adicionada antes de continuar.
Se você não conseguir modificar a política de perfil, receberá uma mensagem de erro informando que o AWS Clean Rooms não conseguiu encontrar a política referente ao perfil de serviço.

1. Se quiser habilitar **Tags** para o recurso de tabela configurado, escolha **Adicionar nova tag** e, em seguida, insira o par **Chave** e **Valor**.

1. Escolha **Criar**.

1. Agora você está pronto para informar ao membro da colaboração que ele pode [revisar um modelo de análise](review-analysis-template.md). (Opcional se quiser consultar seus próprios dados.)

**Importante**  
Não modifique nem remova artefatos (scripts de usuário ou ambientes virtuais) depois de criar um modelo de análise.  
Isso fará com que:  
Faça com que todos os trabalhos de análise futuros usando esse modelo falhem.
Exija a criação de um novo modelo de análise com novos artefatos.
Não afeta trabalhos de análise concluídos anteriormente.