Valutazione delle prestazioni del modello utilizzando un altro LLM-as-a-judge - Amazon Bedrock

Valutazione delle prestazioni del modello utilizzando un altro LLM-as-a-judge

Con un processo di valutazione del modello che utilizza un modello di arbitro, Amazon Bedrock utilizza un LLM per assegnare un punteggio alle risposte di un altro modello e fornire una spiegazione di come ha valutato ciascuna coppia di prompt e risposta. I punteggi e le spiegazioni sono disponibili nella console Amazon Bedrock tramite la pagina Valutazioni.

Questo tipo di valutazione del modello richiede due modelli diversi, un modello di generatore e un modello di valutatore. I prompt per il modello di generatore vengono definiti in un set di dati e il modello di valutatore assegna un punteggio alle risposte a tali prompt in base alle metriche selezionate.

La scheda di riepilogo delle metriche nella console mostra un istogramma che indica il numero di volte in cui una risposta ha ricevuto un determinato punteggio e le spiegazioni del punteggio per i primi cinque prompt presenti nel set di dati. Il rapporto completo del processo di valutazione è disponibile nel bucket Amazon S3 specificato al momento della creazione del processo di valutazione del modello.

Quando crei il processo di valutazione del modello, puoi selezionare un modello Amazon Bedrock come modello di generatore oppure valutare un modello non Amazon Bedrock fornendo i dati di risposta all’inferenza nel set di dati del prompt. Se fornisci i dati di risposta, Amazon Bedrock ignora la fase di invocazione del modello e valuta direttamente i dati forniti.

Per valutare le risposte dei modelli generatore, Amazon Bedrock fornisce una serie di metriche integrate tra cui puoi scegliere. Ogni metrica utilizza un prompt diverso per il modello di valutatore. Puoi anche definire metriche personalizzate per il business case specifico. Per ulteriori informazioni, consulta Utilizzo delle metriche per comprendere le prestazioni del modello.

Modelli supportati

Modelli di valutazione supportati (metriche integrate)

Per creare un processo di valutazione che utilizzi un LLM-as-a-judge con le metriche integrate di Amazon Bedrock, è necessario avere accesso ad almeno uno dei modelli di arbitro elencati di seguito. Per ulteriori informazioni su come accedere ai modelli e sulla disponibilità della Regione, consulta Accesso ai modelli di fondazione Amazon Bedrock.

  • Amazon Nova Pro – amazon.nova-pro-v1:0

  • Anthropic Claude 3.5 Sonnet v1 – anthropic.claude-3-5-sonnet-20240620-v1:0

  • Anthropic Claude 3.5 Sonnet v2 – anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Mistral Large – mistral.mistral-large-2402-v1:0

I profili di inferenza tra Regioni sono supportati per i modelli elencati. Per ulteriori informazioni, consulta Profili di inferenza tra Regioni supportati.

Modelli di valutazione supportati (metriche personalizzate)

Per creare un processo di valutazione che utilizzi un LLM-as-a-judge con le metriche personalizzate, è necessario avere accesso ad almeno uno dei modelli di arbitro elencati di seguito.

  • Mistral Large 24.02 – mistral.mistral-large-2402-v1:0

  • Mistral Large 24.07 – mistral.mistral-large-2407-v1:0

  • Anthropic Claude 3.5 Sonnet v1 – anthropic.claude-3-5-sonnet-20240620-v1:0

  • Anthropic Claude 3.5 Sonnet v2 – anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku 3 – anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3 Haiku 3.5 – anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0

  • Amazon Nova Pro – amazon.nova-pro-v1:0

I profili di inferenza tra Regioni sono supportati per i modelli elencati. Per ulteriori informazioni, consulta Profili di inferenza tra Regioni supportati.

Modelli generatore supportati

Puoi utilizzare i seguenti tipi di modello in Amazon Bedrock come modello di generatore in un processo di valutazione. Puoi anche importare i dati di risposta di inferenza da modelli non Amazon Bedrock.