Preparazione di un set di dati per un processo di valutazione in cui Amazon Bedrock invoca automaticamente i modelli Preparazione di un set di dati per un processo di valutazione utilizzando i propri dati della risposta di inferenza

Creazione di un set di dati dei prompt per un processo di valutazione del modello che utilizza un modello come giudice

Per creare un processo di valutazione del modello con un modello come giudice, devi specificare un set di dati dei prompt con lo stesso formato dei processi di valutazione del modello automatica e che viene utilizzato durante l’inferenza con i modelli selezionati per la valutazione.

Se desideri valutare modelli non Amazon Bedrock utilizzando risposte già generate, includile nel set di dati dei prompt come descritto in Preparazione di un set di dati per un processo di valutazione utilizzando i propri dati della risposta di inferenza. Quando fornisci i dati della risposta di inferenza, Amazon Bedrock ignora la fase di invocazione del modello ed esegue il processo di valutazione con i dati forniti.

I set di dati dei prompt personalizzati devono essere archiviati in Amazon S3 e utilizzare il formato di riga JSON e l’estensione del file .jsonl. Ogni riga deve essere un oggetto JSON valido. Nel set di dati possono essere presenti fino a 1.000 prompt per processo di valutazione.

La configurazione CORS non è richiesta per i lavori di LLM-as-a-judge valutazione. Per i lavori di valutazione basati sull'uomo, è richiesto CORS nel bucket di output S3. Per ulteriori informazioni, consulta Autorizzazioni CORS (Cross Origin Resource Sharing) richiesta per i bucket S3.

Preparazione di un set di dati per un processo di valutazione in cui Amazon Bedrock invoca automaticamente i modelli

Per eseguire un processo di valutazione in cui Amazon Bedrock invoca i modelli per tuo conto, fornisci un set di dati dei prompt contenente le seguenti coppie chiave-valore:

prompt: il prompt a cui desideri che i modelli rispondano.
referenceResponse: (facoltativo) la risposta ground truth.
category: (facoltativo) genera punteggi di valutazione riportati per ogni categoria.

Nota

Se scegli di fornire una risposta ground truth (referenceResponse), Amazon Bedrock utilizzerà questo parametro per calcolare le metriche Completezza (Builtin.Completeness) e Correttezza (Builtin.Correctness). Puoi utilizzare queste metriche anche senza fornire una risposta ground truth. Per visualizzare i prompt del giudice per entrambi questi scenari, consulta la sezione relativa al modello di giudice scelto in Built-in il valutatore metrico richiede lavori di valutazione «modello come giudice».

Di seguito è riportato un esempio di set di dati personalizzati che contiene 6 input e utilizza il formato di riga JSON.


{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}

L’esempio seguente riporta una voce singola espansa per maggiore chiarezza. Nel set di dati dei prompt effettivo, ogni riga deve essere un oggetto JSON valido.


{
  "prompt": "What is high intensity interval training?",
  "category": "Fitness",
  "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods."
}

Preparazione di un set di dati per un processo di valutazione utilizzando i propri dati della risposta di inferenza

Per eseguire un processo di valutazione utilizzando risposte già generate, è necessario creare un set di dati dei prompt contenente le seguenti coppie chiave-valore:

prompt: il prompt utilizzato dai modelli per generare le risposte.
referenceResponse: (facoltativo) la risposta ground truth.
category: (facoltativo) genera punteggi di valutazione riportati per ogni categoria.
modelResponses: la risposta derivante dall’inferenza che desideri far valutare da Amazon Bedrock. I processi di valutazione che utilizzano un modello come giudice supportano solo una risposta del modello per ogni prompt, definita utilizzando le seguenti chiavi:
- response: una stringa contenente la risposta dall’inferenza del modello.
- modelIdentifier: una stringa che identifica il modello che ha generato la risposta. In ogni processo di valutazione è possibile utilizzare un solo modelIdentifier univoco e ciascun prompt del set di dati deve utilizzare questo identificatore.

Nota

Quello che segue è un esempio di set di dati personalizzato con 6 input in formato JSON.


{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}

L’esempio seguente mostra una voce singola in un set di dati dei prompt espanso per maggiore chiarezza.


{
    "prompt": "What is high intensity interval training?",
    "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods.",
    "category": "Fitness",
     "modelResponses": [
        {
            "response": "High intensity interval training (HIIT) is a workout strategy that alternates between short bursts of intense, maximum-effort exercise and brief recovery periods, designed to maximize calorie burn and improve cardiovascular fitness.",
            "modelIdentifier": "my_model"
        }
    ]
}

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Processi di valutazione del modello LLM-as-a-judge

Metriche di valutazione