View a markdown version of this page

강화 학습 - Amazon Nova

강화 학습

참고

구독하면 세부 설명서가 제공됩니다.

Nova Forge는 사용자 환경에서 원격 보상 함수를 사용하는 옵션과 함께 고급 강화 학습 기능을 제공합니다. 고객은 자체 엔드포인트를 통합하여 즉각적인 실제 피드백에 대한 검증을 실행하거나 자체 오케스트레이터를 사용하여 환경에서 에이전트 멀티턴 평가를 조정할 수도 있습니다.

에이전트 멀티턴 평가를 위한 자체 오케스트레이터 가져오기

15분 제한 시간을 초과하는 멀티턴 대화 또는 보상 함수가 필요한 Forge 사용자를 위해 Nova Forge는 자체 오케스트레이션 가져오기(BYOO) 기능을 제공합니다. 이를 통해 환경에서 에이전트 멀티턴 평가를 조정할 수 있습니다(예: 화학 도구를 사용하여 분자 설계 점수를 매기거나 효율적인 태스크 완료에 대한 보상을 제공하고 충돌에 페널티를 적용하는 로봇 시뮬레이션).

아키텍처 개요

BYOO 아키텍처는 고객 관리형 인프라를 통해 롤아웃 및 생성 프로세스를 완벽하게 제어합니다.

훈련 VPC:

  • 롤아웃: 고객 인프라에 롤아웃 생성을 위임하여 훈련 조정

  • 트레이너: 수신된 롤아웃을 기반으로 모델 가중치 업데이트 수행

고객 VPC(예: EC2 기반 ECS):

  • 프록시 Lambda: 롤아웃 요청을 수신하고 고객 인프라에 맞게 조정

  • 롤아웃 응답 SQS: 완료된 롤아웃을 훈련 인프라로 반환하기 위한 대기열

  • 요청 생성 SQS: 모델 생성 요청에 대한 대기열

  • 응답 생성 SQS: 모델 생성 응답에 대한 대기열

  • 고객 컨테이너: 사용자 지정 오케스트레이션 로직 구현(제공된 스타터 키트 사용 가능)

  • DynamoDB: 오케스트레이션 프로세스 전반에 걸쳐 상태 저장 및 검색

워크플로:

  1. 롤아웃은 프록시 Lambda에 롤아웃 생성을 위임함

  2. 프록시 Lambda가 롤아웃 API 요청을 푸시하여 요청 생성 SQS로 푸시함

  3. 고객 컨테이너에서 요청을 처리하고, 멀티턴 상호 작용을 관리하며, 보상 함수를 직접 호출함

  4. 컨테이너는 필요에 따라 DynamoDB에서 상태를 저장 및 검색함

  5. 컨테이너가 롤아웃 응답을 롤아웃 응답 SQS로 푸시함

  6. 롤아웃은 가중치 업데이트를 위해 완료된 롤아웃을 트레이너에게 전송함

설정 및 실행

자세한 설정 지침, 레시피 구성, 요청 및 응답 형식, 환경 예제는 Nova Forge 구독자에게 제공되는 기밀 설명서를 참조하세요. Nova Forge 문서를 가져오려면 아래 단계를 따릅니다.

aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive

자산이 다운로드되면 docs 폴더에서 모든 설명서를 찾을 수 있습니다.