Valutare le prestazioni delle risorse Amazon Bedrock

Utilizza Amazon Bedrock Evaluations per valutare le prestazioni e l’efficacia dei modelli e delle knowledge base di Amazon Bedrock, nonché dei modelli e delle origini di generazione potenziata da recupero dati (RAG) esterne ad Amazon Bedrock. Amazon Bedrock è in grado di calcolare parametri prestazionali come la robustezza semantica di un modello e la correttezza di una knowledge base nel recupero di informazioni e nella generazione di risposte. Per le valutazioni dei modelli, puoi anche avvalerti di un team di operatori umani che forniranno valutazioni e contributi per l’attività di valutazione.

Le valutazioni automatiche, incluse le valutazioni che sfruttano Large Language Models (LLMs), producono punteggi e metriche calcolati che aiutano a valutare l'efficacia di un modello e di una knowledge base. Le valutazioni umane si avvalgono di un team di persone che fornisce le proprie valutazioni e preferenze in relazione a determinate metriche.

Panoramica: lavori di valutazione dei modelli programmatici

I lavori di valutazione del modello programmatico consentono di valutare rapidamente la capacità di un modello di eseguire un'attività. Puoi fornire il tuo set di dati dei prompt personalizzato che hai adattato a un caso d’uso specifico oppure puoi utilizzare un set di dati integrato disponibile.

Panoramica: processi di valutazione del modello che utilizzano lavoratori umani

I processi di valutazione del modello che utilizzano lavoratori umani consentono di apportare il contributo umano al processo di valutazione del modello. Questi possono essere dipendenti dell’azienda o un gruppo di soggetti esperti del settore.

Panoramica: processi di valutazione del modello che utilizzano un modello giudice

I processi di valutazione del modello che utilizzano un modello giudice consentono di valutare rapidamente le risposte di un modello tramite un secondo LLM. Il secondo LLM assegna un punteggio alla risposta e fornisce una spiegazione per ciascuna risposta.

Panoramica delle valutazioni RAG che utilizzano Large Language Models () LLMs

Le valutazioni basate su LLM calcolano le metriche delle prestazioni per la knowledge base. Le metriche rivelano se un’origine RAG o Knowledge Base per Amazon Bedrock è in grado di recuperare informazioni altamente pertinenti e generare risposte utili e appropriate. Fornisci un set di dati che contiene i prompt o le query dell’utente per valutare come una knowledge base recupera le informazioni e genera risposte per quelle query. Il set di dati deve includere anche la “verità di base”, ovvero i testi e le risposte attesi per le query, in modo che la valutazione possa verificare se la tua knowledge base è allineata alle aspettative.

Utilizza il seguente argomento per ulteriori informazioni sulla creazione del primo processo di valutazione del modello.

I processi di valutazione del modello supportano l’utilizzo dei seguenti tipi di modelli di Amazon Bedrock:

Modelli di fondazione
Modelli Marketplace Amazon Bedrock
Modelli di fondazione personalizzati
Modelli di fondazione importati
Router dei prompt
Modelli acquistati tramite Throughput assegnato

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Utilizzare l’API ApplyGuardrail in un’applicazione

Regioni e modelli supportati