Aprendizaje por refuerzo - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Aprendizaje por refuerzo

nota

La documentación detallada se proporciona una vez suscrita

Nova Forge proporciona capacidades avanzadas de aprendizaje por refuerzo con la opción de utilizar funciones de recompensa remotas en su propio entorno. Los clientes pueden optar por integrar su propio terminal para ejecutar la validación y obtener información inmediata en el mundo real, o incluso utilizar su propio orquestador para coordinar las evaluaciones de los agentes en varios turnos en su entorno.

Utilice su propio orquestador para las evaluaciones de los agentes en varios turnos

Para los usuarios de Forge que requieren conversaciones en varios turnos o funciones de recompensa que superen los tiempos de espera de 15 minutos, Nova Forge ofrece la función Bring Your Own Orchestration (BYOO). Esto le permite coordinar las evaluaciones de los agentes con varios turnos en su entorno (por ejemplo, utilizando herramientas químicas para puntuar los diseños moleculares o simulaciones robóticas que recompensan la ejecución eficiente de las tareas y penalizan las colisiones).

Información general de la arquitectura

La arquitectura BYOO proporciona un control total sobre el proceso de implementación y generación a través de una infraestructura gestionada por el cliente.

VPC de formación:

  • Implementación: coordina la capacitación al delegar la generación de la implementación en la infraestructura del cliente

  • Entrenador: Realiza actualizaciones del peso del modelo en función de las distribuciones recibidas

VPC del cliente (como ECS en EC2):

  • Proxy Lambda: recibe solicitudes de implementación y se coordina con la infraestructura del cliente

  • Respuesta de implementación SQS: cola para devolver las implementaciones finalizadas a la infraestructura de formación

  • Generar solicitudes SQS: cola para solicitudes de generación de modelos

  • Generar respuesta SQS: cola para respuestas de generación de modelos

  • Contenedor para clientes: implementa una lógica de orquestación personalizada (puede usar el kit de inicio proporcionado)

  • DynamoDB: almacena y recupera el estado a lo largo del proceso de orquestación

Flujo de trabajo:

  1. Rollout delega la generación de despliegues a Proxy Lambda

  2. Proxy Lambda envía la solicitud de API de implementación a Generate Request SQS

  3. El contenedor de clientes procesa las solicitudes, gestiona las interacciones en varios turnos y llama a las funciones de recompensa

  4. El contenedor almacena y recupera el estado de DynamoDB según sea necesario

  5. Container envía las respuestas de despliegue a Rollout Response SQS

  6. Rollout envía las implementaciones completas a Trainer para que actualice el peso

Configuración y ejecución

Para obtener instrucciones de configuración detalladas, configuraciones de recetas, formatos de solicitud y respuesta y ejemplos de entornos, consulte la documentación confidencial proporcionada a los suscriptores de Nova Forge. Para obtener los documentos de Nova Forge, siga los siguientes pasos:

aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive

Una vez descargados los recursos, encontrará toda la documentación en la docs carpeta.