Valutazione delle prestazioni del modello utilizzando un altro LLM-as-a-judge

Con un processo di valutazione del modello che utilizza un modello di arbitro, Amazon Bedrock utilizza un LLM per assegnare un punteggio alle risposte di un altro modello e fornire una spiegazione di come ha valutato ciascuna coppia di prompt e risposta. I punteggi e le spiegazioni sono disponibili nella console Amazon Bedrock tramite la pagina Valutazioni.

Questo tipo di valutazione del modello richiede due modelli diversi, un modello di generatore e un modello di valutatore. I prompt per il modello di generatore vengono definiti in un set di dati e il modello di valutatore assegna un punteggio alle risposte a tali prompt in base alle metriche selezionate.

La scheda di riepilogo delle metriche nella console mostra un istogramma che indica il numero di volte in cui una risposta ha ricevuto un determinato punteggio e le spiegazioni del punteggio per i primi cinque prompt presenti nel set di dati. Il rapporto completo del processo di valutazione è disponibile nel bucket Amazon S3 specificato al momento della creazione del processo di valutazione del modello.

Quando crei il processo di valutazione del modello, puoi selezionare un modello Amazon Bedrock come modello di generatore oppure valutare un modello non Amazon Bedrock fornendo i dati di risposta all’inferenza nel set di dati del prompt. Se fornisci i dati di risposta, Amazon Bedrock ignora la fase di invocazione del modello e valuta direttamente i dati forniti.

Per valutare le risposte dei modelli generatore, Amazon Bedrock fornisce una serie di metriche integrate tra cui puoi scegliere. Ogni metrica utilizza un prompt diverso per il modello di valutatore. Puoi anche definire metriche personalizzate per il business case specifico. Per ulteriori informazioni, consulta Utilizzo delle metriche per comprendere le prestazioni del modello.

Modelli supportati

Modelli di valutazione supportati (metriche integrate)

Per creare un processo di valutazione che utilizzi un LLM-as-a-judge con le metriche integrate di Amazon Bedrock, è necessario avere accesso ad almeno uno dei modelli di arbitro elencati di seguito. Per ulteriori informazioni su come accedere ai modelli e sulla disponibilità della Regione, consulta Richiedi l'accesso ai modelli.

Amazon Nova Pro – amazon.nova-pro-v1:0
Amazon Nova 2 Lite — amazon.nova-2-lite-v1:0
Amazon Nova Micro — amazon.nova-micro-v1:0
Amazon Nova Premier — amazon.nova-premier-v1:0
AnthropicClaude 3.5 Sonnetversione 1 — anthropic.claude-3-5-sonnet-20240620-v1:0
Anthropic Claude 3.5 Sonnet v2 - anthropic.claude-3-5-sonnet-20241022-v2:0
Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0
Anthropic Claude Sonnet 4 – anthropic.claude-sonnet-4-20250514-v1:0
Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0
Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0
Claude Haiku antropico 4.5 — anthropic.claude-haiku-4-5-20251001-v1:0
Claude antropico Opus 4.5 — anthropic.claude-opus-4-5-20251101-v1:0
Claude Sonnet antropico 4.0 — anthropic.claude-sonnet-4-20250514-v1:0
Claude Sonnet antropico 4.5 — anthropic.claude-sonnet-4-5-20250929-v1:0
Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0
Mistral Large – mistral.mistral-large-2402-v1:0

I profili di inferenza tra Regioni sono supportati per i modelli elencati. Per ulteriori informazioni, consulta Profili di inferenza tra Regioni supportati.

Modelli di valutazione supportati (metriche personalizzate)

Per creare un processo di valutazione che utilizzi un LLM-as-a-judge con le metriche personalizzate, è necessario avere accesso ad almeno uno dei modelli di arbitro elencati di seguito.

Mistral Large 24.02 – mistral.mistral-large-2402-v1:0
Mistral Large 24.07 - mistral.mistral-large-2407-v1:0
AnthropicClaude 3.5 Sonnetversione 1 — anthropic.claude-3-5-sonnet-20240620-v1:0
Anthropic Claude 3.5 Sonnet v2 - anthropic.claude-3-5-sonnet-20241022-v2:0
Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0
Anthropic Claude Sonnet 4 – anthropic.claude-sonnet-4-20250514-v1:0
Anthropic Claude 3 Haiku 3 - anthropic.claude-3-haiku-20240307-v1:0
Anthropic Claude 3 Haiku 3.5 - anthropic.claude-3-5-haiku-20241022-v1:0
Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0
Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0
Amazon Nova Pro – amazon.nova-pro-v1:0
Amazon Nova 2 Lite — amazon.nova-2-lite-v1:0
Amazon Nova Micro — amazon.nova-micro-v1:0
Amazon Nova Premier — amazon.nova-premier-v1:0
Claude Haiku antropico 4.5 — anthropic.claude-haiku-4-5-20251001-v1:0
Claude antropico Opus 4.5 — anthropic.claude-opus-4-5-20251101-v1:0
Claude Sonnet antropico 4.0 — anthropic.claude-sonnet-4-20250514-v1:0
Claude Sonnet antropico 4.5 — anthropic.claude-sonnet-4-5-20250929-v1:0

I profili di inferenza tra Regioni sono supportati per i modelli elencati. Per ulteriori informazioni, consulta Profili di inferenza tra Regioni supportati.

Modelli generatore supportati

Puoi utilizzare i seguenti tipi di modello in Amazon Bedrock come modello di generatore in un processo di valutazione. Puoi anche importare i dati di risposta di inferenza da modelli non Amazon Bedrock.

Modelli di fondazione: Utilizzo di modelli con Bedrock
Modelli Marketplace Amazon Bedrock: Marketplace Amazon Bedrock
Modelli di fondazione personalizzati: Personalizzazione del modello per migliorarne le prestazioni per il proprio caso d’uso
Modelli di fondazione importati: Usare Custom Model Import per importare un modello open source personalizzato in Amazon Bedrock
Router dei prompt: Comprendere il routing di prompt intelligente in Amazon Bedrock
Modelli per i quali è stato acquistato Throughput assegnato: Aumenta la capacità di invocazione del modello con Provisioned Throughput in Amazon Bedrock

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Gestione di un team di lavoro per le valutazioni umane

Set di dati dei prompt