Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Alur kerja untuk evaluator dan loop refleksi-refine
Alur kerja ini menyediakan loop umpan balik di mana satu LLM menghasilkan hasil, dan yang lain mengevaluasi atau mengkritik hasilnya. Ini mempromosikan refleksi diri, optimasi, dan peningkatan berulang.
Alur kerja evaluator sangat ideal untuk skenario di mana kualitas output, akurasi, dan penyelarasan penting dan di mana generasi single-pass tidak dapat diandalkan atau tidak memadai. Alur kerja ini unggul ketika agen harus mengkritik diri sendiri, mengulangi, dan menyempurnakan output mereka—baik untuk memenuhi standar kebenaran yang lebih tinggi atau untuk mengeksplorasi alternatif yang lebih baik berdasarkan umpan balik.
Alur kerja ini sangat efektif ketika:
-
Output melibatkan metrik kualitas subjektif (misalnya, gaya, nada, dan keterbacaan) atau kriteria obyektif (misalnya, kebenaran, keamanan, dan kinerja).
-
Agen harus bernalar melalui trade-off, mengevaluasi kendala, atau mengoptimalkan menuju tujuan.
-
Anda memerlukan redundansi bawaan dan jaminan kualitas, terutama dalam domain yang diatur, berhadapan dengan pelanggan, atau kreatif.
-
Human-in-the-loop ulasan mahal atau tidak tersedia, dan validasi otonom diinginkan.
Alur kerja ini digunakan untuk pembuatan konten, sintesis dan peninjauan kode, penegakan kebijakan, pemeriksaan penyelarasan, penyetelan instruksi, dan pasca pemrosesan RAG. Ini juga berguna untuk agen peningkatan diri, di mana umpan balik berkelanjutan membantu membentuk respons yang lebih baik dari waktu ke waktu untuk membangun loop keputusan otonom yang dapat dipercaya.
Kasus penggunaan umum
-
Agen tim merah dibandingkan dengan agen tim biru
-
Agen yang menghasilkan, mengevaluasi, dan merevisi kode atau rencana
-
Jaminan kualitas, deteksi halusinasi, dan penegakan gaya
Kemampuan
-
Mendukung generasi dan evaluasi terpisah menggunakan model yang berbeda (misalnya, Claude untuk generasi dan Mistral untuk evaluasi)
-
Umpan balik terstruktur dan digunakan untuk meminta output yang direvisi
-
Mendukung beberapa iterasi atau ambang konvergensi