Nova-Anpassung — MLFlow-Setup für SageMaker HyperPod Erstellen Sie eine MLFlow-App Greifen Sie auf die MLFlow-App zu Wichtige Kennzahlen, die es zu verfolgen gilt Feststellen, wann gestoppt werden soll

Überwachung des Fortschritts über mehrere Iterationen hinweg

Sie können Metriken über MLflow verfolgen.

Nova-Anpassung — MLFlow-Setup für SageMaker HyperPod

Damit Ihre SageMaker HyperPod Umgebung Metriken an MLflow ausgeben kann, müssen Sie einige zusätzliche Einstellungen vornehmen.

Öffnen Sie Amazon SageMaker AI
Wählen Sie SageMaker Studio
1. Wenn bereits ein Profil erstellt wurde, wählen Sie „Studio öffnen“.
2. Wenn kein Profil erstellt wurde, wählen Sie „Eine SageMaker Domain erstellen“, um eines einzurichten
Wählen Sie MLflow. Wenn keine MLflow App erstellt wurde, wählen Sie „MLflow App erstellen“
Klicken Sie in der ML Flow App auf die copy/paste Schaltfläche oder den Menüpunkt „Details anzeigen“, um den ARN abzurufen. Sie benötigen dies, wenn Sie Ihren Ausbildungsjob einreichen.
Fügen Sie der HyperPod Cluster-Ausführungsrolle die folgende Richtlinie hinzu. Dadurch kann der HyperPod Cluster die MLflow-API aufrufen, um Metriken zu veröffentlichen.



{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": "sagemaker-mlflow:*",
            "Resource": [
                "arn:aws:sagemaker:us-east-1:372836560492:mlflow-app/*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "sagemaker:ListMlflowTrackingServers",
                "sagemaker:CallMlflowAppApi"
            ],
            "Resource": "*"
        }
    ]
}

Einen Job über die CLI einreichen

Geben Sie 4 neue Override-Parameter an, entweder in der Befehlszeile oder im Rezept yaml.

mlflow_tracking_uri: Der ARN der MLflow App
mlflow_experiment_name: Der Name für diesen Durchlauf des Experiments
mlflow_experiment_name: Der Name des Experiments, in dem die Metriken in MLflow gespeichert werden
mlflow_run_name: Der Name für dieses Experiment

Befehlszeile



--override-parameters '{"recipes.run.mlflow_tracking_uri": "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W", "recipes.run.mlflow_experiment_name": "myuser-sft-lora-exp1", "recipes.run.mlflow_run_name": "myuser-sft-lora-exp1-202512181940"}'

yaml:



## Run config
run:
  mlflow_tracking_uri: "arn:aws:sagemaker:us-east-1:925548216816:mlflow-app/app-B6XOUNCHQM4W" 
  mlflow_experiment_name: "myuser-sft-lora-exp1"
  mlflow_run_name: "myuser-sft-lora-exp1-202512181940"

Einen Job über die SageMaker Studio-Benutzeroberfläche einreichen

Die MLflow-Integration ist bereits in die SageMaker Studio-Benutzeroberfläche integriert. Wenn Sie einen Schulungsjob einreichen, geben Sie einfach an, welche MLflow App-Instanz verwendet werden soll.

Navigieren Sie in SageMaker Studio zu Modelle > Nova 2.0 Lite > Anpassen > Mit UI anpassen.
Erweitern Sie den Abschnitt Erweiterte Konfiguration
Wählen Sie die MLflow App aus, an die Sie die Trainingsmetriken senden möchten. Sie können hier auch Ihren Experimentnamen festlegen und das Experiment ausführen.

Einreichen eines Jobs über AWS CLI

Wenn Sie die verwenden AWS CLI, müssen Sie eine MLFlow-App erstellen und sie als Eingabe für die API-Anfrage für den Schulungsjob übergeben.


mlflow_app_name="<enter your MLflow app name>"
role_arn="<enter your role ARN>"
bucket_name="<enter your bucket name>"
region="<enter your region>"

mlflow_app_arn=$(aws sagemaker create-mlflow-app \
  --name $mlflow_app_name \
  --artifact-store-uri "s3://$bucket_name" \
  --role-arn $role_arn \
  --region $region)

Erstellen Sie eine MLFlow-App

Verwenden der Studio-Benutzeroberfläche: Wenn Sie einen Trainingsjob über die Studio-Benutzeroberfläche erstellen, wird automatisch eine standardmäßige MLflow-Anwendung erstellt und standardmäßig unter Erweiterte Optionen ausgewählt.

Verwenden von CLI: Wenn Sie die CLI verwenden, müssen Sie eine MLFlow-App erstellen und sie als Eingabe an die API-Anfrage für den Trainingsjob übergeben.


mlflow_app_name="<enter your MLflow app name>"
role_arn="<enter your role ARN>" 
bucket_name="<enter your bucket name>" 
region="<enter your region>"

mlflow_app_arn=$(aws sagemaker create-mlflow-app \
  --name $mlflow_app_name \
  --artifact-store-uri "s3://$bucket_name" \
  --role-arn $role_arn \
  --region $region)

Greifen Sie auf die MLFlow-App zu

Verwenden von CLI: Erstellen Sie eine vorsignierte URL für den Zugriff auf die Benutzeroberfläche der MLflow-App:


aws sagemaker create-presigned-mlflow-app-url \
  --arn $mlflow_app_arn \
  --region $region \
  --output text

Verwenden der Studio-Benutzeroberfläche: Die Studio-Benutzeroberfläche zeigt wichtige Kennzahlen an, die in MLflow gespeichert sind, und bietet einen Link zur Benutzeroberfläche der MLflow-App.

Wichtige Kennzahlen, die es zu verfolgen gilt

Überwachen Sie diese Kennzahlen in allen Iterationen, um die Verbesserung zu bewerten und den Arbeitsfortschritt zu verfolgen:

Für SFT

Verlustkurven beim Training
Anzahl der verbrauchten Proben und Zeit für die Probenverarbeitung
Leistungsgenauigkeit bei ausgestreckten Testgeräten
Formatkonformität (z. B. gültige JSON-Ausgaberate)
Unklarheit über domänenspezifische Bewertungsdaten

Für RFT

Durchschnittliche Belohnungspunktzahlen im Vergleich zum Training
Verteilung der Prämien (Prozentsatz der Antworten mit hoher Prämie)
Trends bei der Validierung von Prämien (achten Sie auf zu hohe Anforderungen)
Task-specific Erfolgsquoten (z. B. Erfolgsquote bei der Codeausführung, Genauigkeit mathematischer Probleme)

General

Benchmark-Leistungsdeltas zwischen Iterationen
Bewertungsergebnisse am Menschen anhand repräsentativer Stichproben
Produktionskennzahlen (bei iterativer Bereitstellung)

Feststellen, wann gestoppt werden soll

Beenden Sie die Iteration, wenn:

Leistungsplateaus: Zusätzliche Schulungen verbessern die Zielkennzahlen nicht mehr nennenswert
Technikwechsel hilft: Wenn bei einer Technik ein Plateau auftritt, versuchen Sie, zu wechseln (z. B. SFT → RFT → SFT), um die Leistungsobergrenzen zu durchbrechen
Erreichte Zielkennzahlen: Ihre Erfolgskriterien sind erfüllt
Regression erkannt: Neue Iterationen verschlechtern die Leistung (siehe Rollback-Verfahren unten)

Ausführliche Bewertungsverfahren finden Sie im Abschnitt Bewertung.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verstärkung Fine-Tuning (RFT)

Bewertung