Reinforcement Learning - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Reinforcement Learning

Anmerkung

Eine ausführliche Dokumentation wird nach der Anmeldung zur Verfügung gestellt

Nova Forge bietet erweiterte Reinforcement-Learning-Funktionen mit der Option, Remote-Belohnungsfunktionen in Ihrer eigenen Umgebung zu verwenden. Kunden können wählen, ob sie ihren eigenen Endpunkt integrieren, um die Validierung durchzuführen, um sofort Feedback aus der Praxis zu erhalten, oder sogar ihren eigenen Orchestrator verwenden, um behördliche Multi-Turn-Evaluierungen in Ihrer Umgebung zu koordinieren.

Verwenden Sie Ihren eigenen Orchestrator für behördliche Multi-Turn-Evaluierungen

Für Forge-Benutzer, die Multi-Turn-Konversationen oder Prämienfunktionen mit einer Wartezeit von mehr als 15 Minuten benötigen, bietet Nova Forge BYOO-Funktionen (Bring Your Own Orchestration). Auf diese Weise können Sie behördliche Multiturn-Evaluierungen in Ihrer Umgebung koordinieren (z. B. mithilfe von Chemie-Tools zur Bewertung molekularer Designs oder Robotiksimulationen, die effiziente Aufgabenerfüllung belohnen und Kollisionen bestrafen).

Übersicht über die Architektur

Die BYOO-Architektur bietet über eine vom Kunden verwaltete Infrastruktur die volle Kontrolle über den Rollout- und Generierungsprozess.

Schulung VPC:

  • Rollout: Koordiniert die Schulung, indem die Rollout-Generierung an die Kundeninfrastruktur delegiert wird

  • Trainer: Führt auf der Grundlage der eingegangenen Rollouts Aktualisierungen des Modellgewichts durch

Kunden-VPC (z. B. ECS auf EC2):

  • Proxy Lambda: Empfängt Rollout-Anfragen und koordiniert sich mit der Kundeninfrastruktur

  • Rollout Response SQS: Warteschlange für die Rückgabe abgeschlossener Rollouts an die Trainingsinfrastruktur

  • Anfrage generieren SQS: Warteschlange für Anfragen zur Modellgenerierung

  • Antwort generieren SQS: Warteschlange für Antworten zur Modellgenerierung

  • Kundencontainer: Implementiert eine benutzerdefinierte Orchestrierungslogik (kann das mitgelieferte Starterkit verwenden)

  • DynamoDB: Speichert den Status während des Orchestrierungsprozesses und ruft ihn ab

Arbeitsablauf:

  1. Rollout delegiert die Rollout-Generierung an Proxy Lambda

  2. Proxy Lambda überträgt die Rollout-API-Anfrage an Generate Request SQS

  3. Der Kundencontainer verarbeitet Anfragen, verwaltet Multi-Turn-Interaktionen und ruft Belohnungsfunktionen auf

  4. Container speichert den Status nach Bedarf und ruft ihn von DynamoDB ab

  5. Container überträgt Rollout-Antworten an Rollout Response SQS

  6. Rollout sendet abgeschlossene Rollouts zur Gewichtsaktualisierung an Trainer

Einrichtung und Ausführung

Detaillierte Anweisungen zur Einrichtung, Rezeptkonfigurationen, Anfrage- und Antwortformate sowie Umgebungsbeispiele finden Sie in der vertraulichen Dokumentation, die Nova Forge-Abonnenten zur Verfügung gestellt wird. Gehen Sie wie folgt vor, um die Nova Forge-Dokumente zu erhalten:

aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive

Sobald die Assets heruntergeladen wurden, finden Sie die gesamte Dokumentation im docs Ordner.