Aprendizado por Reforço - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Aprendizado por Reforço

nota

A documentação detalhada é fornecida após a inscrição

O Nova Forge fornece recursos avançados de aprendizado por reforço com a opção de usar funções remotas de recompensa em seu próprio ambiente. Os clientes podem optar por integrar seu próprio endpoint para executar a validação e obter feedback imediato no mundo real ou até mesmo usar seu próprio orquestrador para coordenar avaliações de vários turnos do agente em seu ambiente.

Traga seu próprio orquestrador para avaliações agentes em vários turnos

Para usuários do Forge que precisam de conversas em vários turnos ou funções de recompensa que excedam o tempo limite de 15 minutos, o Nova Forge fornece recursos de Bring Your Own Orchestration (BYOO). Isso permite que você coordene avaliações agentes de vários turnos em seu ambiente (por exemplo, usando ferramentas químicas para pontuar projetos moleculares ou simulações robóticas que recompensam a conclusão eficiente de tarefas e penalizam as colisões).

Visão geral da arquitetura

A arquitetura BYOO fornece controle total sobre o processo de implantação e geração por meio da infraestrutura gerenciada pelo cliente.

Treinamento de VPC:

  • Implantação: coordena o treinamento delegando a geração de implantação à infraestrutura do cliente

  • Trainer: realiza atualizações de peso do modelo com base nos lançamentos recebidos

VPC do cliente (como ECS no EC2):

  • Proxy Lambda: recebe solicitações de implantação e coordena com a infraestrutura do cliente

  • Rollout Response SQS: fila para devolver lançamentos concluídos à infraestrutura de treinamento

  • Gerar solicitação SQS: fila para solicitações de geração de modelo

  • Gerar resposta SQS: fila para respostas de geração de modelos

  • Contêiner do cliente: implementa a lógica de orquestração personalizada (pode usar o kit inicial fornecido)

  • DynamoDB: armazena e recupera o estado em todo o processo de orquestração

Fluxo de trabalho:

  1. O rollout delega a geração do lançamento ao Proxy Lambda

  2. O Proxy Lambda envia uma solicitação de implementação da API para Generate Request SQS

  3. O contêiner do cliente processa solicitações, gerencia interações em vários turnos e chama funções de recompensa

  4. O contêiner armazena e recupera o estado do DynamoDB conforme necessário

  5. O contêiner envia respostas de implantação para o Rollout Response SQS

  6. O Rollout envia lançamentos concluídos ao Trainer para atualizações de peso

Configuração e execução

Para obter instruções detalhadas de configuração, configurações de receitas, formatos de solicitação e resposta e exemplos de ambiente, consulte a documentação confidencial fornecida aos assinantes do Nova Forge. Para obter os documentos do Nova Forge, siga as etapas abaixo:

aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive

Depois que os ativos forem baixados, você poderá encontrar toda a documentação na docs pasta.