Valutare le prestazioni delle risorse Amazon Bedrock - Amazon Bedrock

Valutare le prestazioni delle risorse Amazon Bedrock

Utilizza Amazon Bedrock Evaluations per valutare le prestazioni e l’efficacia dei modelli e delle knowledge base di Amazon Bedrock, nonché dei modelli e delle origini di generazione potenziata da recupero dati (RAG) esterne ad Amazon Bedrock. Amazon Bedrock è in grado di calcolare parametri prestazionali come la robustezza semantica di un modello e la correttezza di una knowledge base nel recupero di informazioni e nella generazione di risposte. Per le valutazioni dei modelli, puoi anche avvalerti di un team di operatori umani che forniranno valutazioni e contributi per l’attività di valutazione.

Le valutazioni automatiche, incluse quelle che sfruttano i modelli linguistici di grandi dimensioni (LLM), producono punteggi e metriche calcolati che aiutano a valutare l’efficacia di un modello e di una knowledge base. Le valutazioni umane si avvalgono di un team di persone che fornisce le proprie valutazioni e preferenze in relazione a determinate metriche.

Panoramica: processi di valutazione automatica del modello

I processi di valutazione del modello automatici consentono di valutare rapidamente la capacità di un modello di eseguire un’attività. Puoi fornire il tuo set di dati dei prompt personalizzato che hai adattato a un caso d’uso specifico oppure puoi utilizzare un set di dati integrato disponibile.

Panoramica: processi di valutazione del modello che utilizzano lavoratori umani

I processi di valutazione del modello che utilizzano lavoratori umani consentono di apportare il contributo umano al processo di valutazione del modello. Questi possono essere dipendenti dell’azienda o un gruppo di soggetti esperti del settore.

Panoramica: processi di valutazione del modello che utilizzano un modello giudice

I processi di valutazione del modello che utilizzano un modello giudice consentono di valutare rapidamente le risposte di un modello tramite un secondo LLM. Il secondo LLM assegna un punteggio alla risposta e fornisce una spiegazione per ciascuna risposta.

Panoramica delle valutazioni RAG che utilizzano modelli linguistici di grandi dimensioni (LLM)

Le valutazioni basate su LLM calcolano le metriche delle prestazioni per la knowledge base. Le metriche rivelano se un’origine RAG o Knowledge Base per Amazon Bedrock è in grado di recuperare informazioni altamente pertinenti e generare risposte utili e appropriate. Fornisci un set di dati che contiene i prompt o le query dell’utente per valutare come una knowledge base recupera le informazioni e genera risposte per quelle query. Il set di dati deve includere anche la “verità di base”, ovvero i testi e le risposte attesi per le query, in modo che la valutazione possa verificare se la tua knowledge base è allineata alle aspettative.

Utilizza il seguente argomento per ulteriori informazioni sulla creazione del primo processo di valutazione del modello.

I processi di valutazione del modello supportano l’utilizzo dei seguenti tipi di modelli di Amazon Bedrock:

  • Modelli di fondazione

  • Modelli Marketplace Amazon Bedrock

  • Modelli di fondazione personalizzati

  • Modelli di fondazione importati

  • Router dei prompt

  • Modelli acquistati tramite Throughput assegnato