Alur kerja untuk evaluator dan loop refleksi-refine

Alur kerja ini menyediakan loop umpan balik di mana satu LLM menghasilkan hasil, dan yang lain mengevaluasi atau mengkritik hasilnya. Ini mempromosikan refleksi diri, optimasi, dan peningkatan berulang.

Alur kerja evaluator sangat ideal untuk skenario di mana kualitas output, akurasi, dan penyelarasan penting dan di mana generasi single-pass tidak dapat diandalkan atau tidak memadai. Alur kerja ini unggul ketika agen harus mengkritik diri sendiri, mengulangi, dan menyempurnakan output mereka—baik untuk memenuhi standar kebenaran yang lebih tinggi atau untuk mengeksplorasi alternatif yang lebih baik berdasarkan umpan balik.

Alur kerja ini sangat efektif ketika:

Output melibatkan metrik kualitas subjektif (misalnya, gaya, nada, dan keterbacaan) atau kriteria obyektif (misalnya, kebenaran, keamanan, dan kinerja).
Agen harus bernalar melalui trade-off, mengevaluasi kendala, atau mengoptimalkan menuju tujuan.
Anda memerlukan redundansi bawaan dan jaminan kualitas, terutama dalam domain yang diatur, berhadapan dengan pelanggan, atau kreatif.
Human-in-the-loop ulasan mahal atau tidak tersedia, dan validasi otonom diinginkan.

Alur kerja ini digunakan untuk pembuatan konten, sintesis dan peninjauan kode, penegakan kebijakan, pemeriksaan penyelarasan, penyetelan instruksi, dan pasca pemrosesan RAG. Ini juga berguna untuk agen peningkatan diri, di mana umpan balik berkelanjutan membantu membentuk respons yang lebih baik dari waktu ke waktu untuk membangun loop keputusan otonom yang dapat dipercaya.

Kasus penggunaan umum

Agen tim merah dibandingkan dengan agen tim biru
Agen yang menghasilkan, mengevaluasi, dan merevisi kode atau rencana
Jaminan kualitas, deteksi halusinasi, dan penegakan gaya

Kemampuan

Mendukung generasi dan evaluasi terpisah menggunakan model yang berbeda (misalnya, Claude untuk generasi dan Mistral untuk evaluasi)
Umpan balik terstruktur dan digunakan untuk meminta output yang direvisi
Mendukung beberapa iterasi atau ambang konvergensi

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Alur kerja untuk orkestrasi

Kesimpulan