View a markdown version of this page

Valutare le prestazioni delle risorse Amazon Bedrock - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Valutare le prestazioni delle risorse Amazon Bedrock

Utilizza Amazon Bedrock Evaluations per valutare le prestazioni e l’efficacia dei modelli e delle knowledge base di Amazon Bedrock, nonché dei modelli e delle origini di generazione potenziata da recupero dati (RAG) esterne ad Amazon Bedrock. Amazon Bedrock è in grado di calcolare parametri prestazionali come la robustezza semantica di un modello e la correttezza di una knowledge base nel recupero di informazioni e nella generazione di risposte. Per le valutazioni dei modelli, puoi anche utilizzare un team di lavoratori umani per valutare e fornire il proprio contributo per la valutazione.

Le valutazioni automatiche, incluse le valutazioni che utilizzano Large Language Models (LLM), producono punteggi e metriche calcolati che consentono di valutare l'efficacia di un modello e di una base di conoscenze. Human-based le valutazioni utilizzano un team di persone che forniscono le proprie valutazioni e preferenze in relazione a determinate metriche.

Panoramica: lavori di valutazione dei modelli programmatici

I lavori di valutazione del modello programmatico consentono di valutare rapidamente la capacità di un modello di eseguire un'attività. Puoi fornire il tuo set di dati dei prompt personalizzato che hai adattato a un caso d’uso specifico oppure puoi utilizzare un set di dati integrato disponibile.

Panoramica: processi di valutazione del modello che utilizzano lavoratori umani

I processi di valutazione del modello che utilizzano lavoratori umani consentono di apportare il contributo umano al processo di valutazione del modello. Questi possono essere dipendenti dell’azienda o un gruppo di soggetti esperti del settore.

Panoramica: processi di valutazione del modello che utilizzano un modello giudice

I processi di valutazione del modello che utilizzano un modello giudice consentono di valutare rapidamente le risposte di un modello tramite un secondo LLM. Il secondo LLM assegna un punteggio alla risposta e fornisce una spiegazione per ciascuna risposta.

Panoramica delle valutazioni RAG che utilizzano modelli linguistici di grandi dimensioni (LLM)

LLM-based le valutazioni calcolano le metriche delle prestazioni per la knowledge base. Le metriche rivelano se un’origine RAG o Knowledge Base per Amazon Bedrock è in grado di recuperare informazioni altamente pertinenti e generare risposte utili e appropriate. Fornisci un set di dati che contiene i prompt o le query dell’utente per valutare come una knowledge base recupera le informazioni e genera risposte per quelle query. Il set di dati deve includere anche la “verità di base”, ovvero i testi e le risposte attesi per le query, in modo che la valutazione possa verificare se la tua knowledge base è allineata alle aspettative.

Utilizza il seguente argomento per ulteriori informazioni sulla creazione del primo processo di valutazione del modello.

I processi di valutazione del modello supportano l’utilizzo dei seguenti tipi di modelli di Amazon Bedrock:

  • Modelli di fondazione

  • Modelli Marketplace Amazon Bedrock

  • Modelli di fondazione personalizzati

  • Modelli di fondazione importati

  • Router dei prompt

  • Modelli acquistati tramite Throughput assegnato