Mengevaluasi kinerja sumber RAG menggunakan evaluasi Amazon Bedrock - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengevaluasi kinerja sumber RAG menggunakan evaluasi Amazon Bedrock

Anda dapat menggunakan metrik terkomputasi untuk mengevaluasi seberapa efektif sistem Retrieval Augmented Generation (RAG) mengambil informasi yang relevan dari sumber data Anda, dan seberapa efektif tanggapan yang dihasilkan dalam menjawab pertanyaan. Hasil evaluasi RAG memungkinkan Anda membandingkan Basis Pengetahuan Amazon Bedrock yang berbeda dan sumber RAG lainnya, dan kemudian memilih Basis Pengetahuan atau sistem RAG terbaik untuk aplikasi Anda.

Anda dapat mengatur dua jenis pekerjaan evaluasi RAG yang berbeda.

  • Hanya ambil - Dalam pekerjaan evaluasi RAG khusus pengambilan, laporan didasarkan pada data yang diambil dari sumber RAG Anda. Anda dapat mengevaluasi Basis Pengetahuan Amazon Bedrock, atau Anda dapat membawa data respons inferensi Anda sendiri dari sumber RAG eksternal.

  • Ambil dan hasilkan — Dalam pekerjaan evaluasi retrieve-and-generateRAG, laporan didasarkan pada data yang diambil dari basis pengetahuan Anda dan ringkasan yang dihasilkan oleh model generator respons. Anda dapat menggunakan Basis Pengetahuan Amazon Bedrock dan model generator respons, atau Anda dapat membawa data respons inferensi Anda sendiri dari sumber RAG eksternal.

Model yang didukung

Untuk membuat pekerjaan evaluasi RAG, Anda memerlukan akses ke setidaknya salah satu model evaluator dalam daftar berikut. Untuk membuat retrieve-and-generate pekerjaan yang menggunakan model Amazon Bedrock untuk menghasilkan respons, Anda juga memerlukan akses ke setidaknya salah satu model respons generator yang terdaftar.

Untuk mempelajari lebih lanjut tentang mendapatkan akses ke model dan ketersediaan Wilayah, lihatAkses model fondasi Amazon Bedrock.

Model evaluator yang didukung (metrik bawaan)

  • Amazon Nova Pro – amazon.nova-pro-v1:0

  • AnthropicClaude 3.5 Sonnetv1 — anthropic.claude-3-5-sonnet-20240620-v1:0

  • AnthropicClaude 3.5 Sonnetv2 — anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Mistral Large – mistral.mistral-large-2402-v1:0

Profil inferensi Lintas Wilayah didukung untuk model yang terdaftar. Untuk mempelajari selengkapnya, lihat Profil inferensi lintas wilayah yang didukung.

Model evaluator yang didukung (metrik khusus)

  • Mistral Large24.02 — mistral.mistral-large-2402-v1:0

  • Mistral Large24.07 — mistral.mistral-large-2407-v1:0

  • AnthropicClaude 3.5 Sonnetv1 — anthropic.claude-3-5-sonnet-20240620-v1:0

  • AnthropicClaude 3.5 Sonnetv2 — anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • AnthropicClaude 3 Haiku3 — anthropic.claude-3-haiku-20240307-v1:0

  • AnthropicClaude 3 Haiku3.5 — anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0

  • Amazon Nova Pro – amazon.nova-pro-v1:0

Profil inferensi Lintas Wilayah didukung untuk model yang terdaftar. Untuk mempelajari selengkapnya, lihat Profil inferensi lintas wilayah yang didukung.

Model generator respons yang didukung

Anda dapat menggunakan jenis model berikut di Amazon Bedrock sebagai model generator respons dalam pekerjaan evaluasi. Anda juga dapat membawa data respons inferensi Anda sendiri dari model Bedrock non-Amazon.