

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Pengetahuan faktual
<a name="clarify-factual-knowledge-evaluation"></a>

 Mengevaluasi kemampuan model bahasa untuk mereproduksi fakta tentang dunia nyata. Foundation Model Evaluations (FMEval) dapat mengukur model Anda terhadap dataset kustom Anda sendiri atau menggunakan dataset bawaan berdasarkan dataset [T- REx open source](https://hadyelsahar.github.io/t-rex/).

 Amazon SageMaker AI mendukung menjalankan evaluasi pengetahuan faktual dari Amazon SageMaker Studio atau menggunakan `fmeval` perpustakaan. 
+  **Menjalankan evaluasi di Studio:** Pekerjaan evaluasi yang dibuat di Studio menggunakan default yang dipilih sebelumnya untuk mengevaluasi kinerja model dengan cepat. 
+  **Menjalankan evaluasi menggunakan `fmeval` pustaka:** Pekerjaan evaluasi yang dibuat menggunakan `fmeval` pustaka menawarkan opsi yang diperluas untuk mengonfigurasi evaluasi kinerja model. 

## Jenis tugas yang didukung
<a name="clarify-factual-knowledge-evaluation-task"></a>

 Evaluasi pengetahuan faktual didukung untuk jenis tugas berikut dengan kumpulan data bawaan yang terkait. Pengguna juga dapat membawa dataset mereka sendiri. Secara default, SageMaker AI mengambil sampel 100 titik data acak dari kumpulan data untuk evaluasi pengetahuan faktual. Saat menggunakan `fmeval` perpustakaan, ini dapat disesuaikan dengan meneruskan `num_records` parameter ke `evaluate` metode. Untuk informasi tentang menyesuaikan evaluasi pengetahuan faktual menggunakan `fmeval` perpustakaan, lihat. [Sesuaikan alur kerja Anda menggunakan pustaka `fmeval`](clarify-foundation-model-evaluate-auto-lib-custom.md) 


|  Jenis tugas  |  Kumpulan data bawaan  |  Catatan  | 
| --- | --- | --- | 
|  Generasi terbuka  |  [T- REx](https://hadyelsahar.github.io/t-rex/) |  Dataset ini hanya mendukung bahasa Inggris. Untuk menjalankan evaluasi ini dalam bahasa lain, Anda harus mengunggah kumpulan data Anda sendiri.  | 

## Nilai yang dihitung
<a name="clarify-factual-knowledge-evaluation-values"></a>

 Evaluasi ini rata-rata satu metrik biner di setiap prompt dalam kumpulan data. Untuk informasi tentang struktur prompt yang diperlukan untuk evaluasi, lihat[Buat pekerjaan evaluasi model otomatis di Studio](clarify-foundation-model-evaluate-auto-ui.md). Untuk setiap prompt, nilainya sesuai dengan yang berikut: 
+ `0`: Jawaban yang diharapkan dengan huruf rendah bukan bagian dari respons model. 
+ `1`: Jawaban yang diharapkan dengan huruf rendah adalah bagian dari respons model. Beberapa pasangan subjek dan predikat dapat memiliki lebih dari satu jawaban yang diharapkan. Dalam hal ini, salah satu jawaban dianggap benar. 

## Contoh
<a name="clarify-factual-knowledge-evaluation-example"></a>
+  **Prompt**: `Berlin is the capital of`  
+  **Jawaban yang diharapkan**:`Germany`.  
+  **Teks yang dihasilkan**: `Germany, and is also its most populous city` 
+  **Evaluasi pengetahuan faktual**: 1