

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Kekokohan Semantik
<a name="clarify-semantic-robustness-evaluation"></a>

 Mengevaluasi seberapa banyak output model Anda berubah sebagai hasil dari perubahan kecil yang mempertahankan semantik dalam input. Foundation Model Evaluations (FMEval) mengukur bagaimana output model Anda berubah sebagai akibat dari kesalahan ketik keyboard, perubahan acak pada huruf besar, dan penambahan atau penghapusan spasi putih secara acak. 

 Amazon SageMaker AI mendukung menjalankan evaluasi ketahanan semantik dari SageMaker Amazon Studio atau menggunakan perpustakaan. `fmeval` 
+  **Menjalankan evaluasi di Studio:** Pekerjaan evaluasi yang dibuat di Studio menggunakan default yang dipilih sebelumnya untuk mengevaluasi kinerja model dengan cepat. Evaluasi ketahanan semantik untuk generasi terbuka tidak dapat dibuat di Studio. Mereka harus dibuat menggunakan `fmeval` perpustakaan. 
+  **Menjalankan evaluasi menggunakan `fmeval` pustaka:** Pekerjaan evaluasi yang dibuat menggunakan `fmeval` pustaka menawarkan opsi yang diperluas untuk mengonfigurasi evaluasi kinerja model. 

## Jenis tugas yang didukung
<a name="clarify-semantic-robustness-evaluation-task"></a>

 Evaluasi ketahanan semantik didukung untuk jenis tugas berikut dengan kumpulan data bawaan terkait. Pengguna juga dapat membawa dataset mereka sendiri. Secara default, SageMaker AI mengambil sampel 100 titik data acak dari kumpulan data untuk evaluasi toksisitas. Saat menggunakan `fmeval` perpustakaan, ini dapat disesuaikan dengan meneruskan `num_records` parameter ke `evaluate` metode. Untuk informasi tentang menyesuaikan evaluasi pengetahuan faktual menggunakan `fmeval` perpustakaan, lihat. [Sesuaikan alur kerja Anda menggunakan pustaka `fmeval`](clarify-foundation-model-evaluate-auto-lib-custom.md) 


|  Jenis tugas  |  Built-in kumpulan data  |  Catatan  | 
| --- | --- | --- | 
|  Ringkasan teks  | [Gigaword, Dataset](https://huggingface.co/datasets/gigaword?row=3) Laporan [Pemerintah](https://gov-report-data.github.io/) |   | 
|  Menjawab pertanyaan  | [BoolQ](https://github.com/google-research-datasets/boolean-questions)[,, TriviaQA [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)](http://nlp.cs.washington.edu/triviaqa/) |   | 
|  Klasifikasi  | [Ulasan E-Commerce Pakaian Wanita](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) |   | 
|  Open-ended generasi  | [T-REx](https://hadyelsahar.github.io/t-rex/), [BERANI](https://github.com/amazon-science/bold), [WikiText-2](https://huggingface.co/datasets/wikitext/viewer/wikitext-2) |   | 

## Jenis gangguan
<a name="clarify-semantic-robustness-evaluation-perturbation"></a>

 Evaluasi ketahanan semantik membuat salah satu dari tiga gangguan berikut. Anda dapat memilih jenis gangguan saat mengonfigurasi pekerjaan evaluasi. Ketiga gangguan diadaptasi dari. NL-Augmenter 

 Contoh masukan model:`A quick brown fox jumps over the lazy dog`.  
+  [Butter Fingers](https://github.com/GEM-benchmark/NL-Augmenter/blob/c591130760b453b3ad09516849dfc26e721eeb24/nlaugmenter/transformations/butter_fingers_perturbation): Kesalahan ketik diperkenalkan karena menekan tombol keyboard yang berdekatan. 

  ```
  W quick brmwn fox jumps over the lazy dig
  ```
+  [Random Upper Case](https://github.com/GEM-benchmark/NL-Augmenter/blob/c591130760b453b3ad09516849dfc26e721eeb24/nlaugmenter/transformations/random_upper_transformation/): Mengubah huruf yang dipilih secara acak menjadi huruf besar. 

  ```
  A qUick brOwn fox jumps over the lazY dog
  ```
+  [Whitespace Add Remove](https://github.com/GEM-benchmark/NL-Augmenter/blob/c591130760b453b3ad09516849dfc26e721eeb24/nlaugmenter/transformations/whitespace_perturbation): Menambahkan dan menghapus spasi putih secara acak dari input. 

  ```
  A q uick bro wn fox ju mps overthe lazy dog
  ```

## Nilai yang dihitung
<a name="clarify-semantic-robustness-evaluation-values"></a>

 Evaluasi ini mengukur perubahan kinerja antara output model berdasarkan input asli yang tidak terganggu dan output model berdasarkan serangkaian versi input yang terganggu. Untuk informasi tentang struktur prompt yang diperlukan untuk evaluasi, lihat[Buat pekerjaan evaluasi model otomatis di Studio](clarify-foundation-model-evaluate-auto-ui.md). 

 Perubahan kinerja adalah perbedaan rata-rata antara skor input asli dan skor input yang terganggu. Skor yang diukur untuk mengevaluasi perubahan kinerja ini bergantung pada jenis tugas:

### Ringkasan
<a name="clarify-semantic-robustness-evaluation-summarization"></a>

 Untuk tugas meringkas, ketahanan semantik mengukur skor berikut saat menggunakan input yang terganggu, serta Delta untuk setiap skor. Skor Delta mewakili perbedaan absolut rata-rata antara skor input asli dan skor input yang terganggu. 
+  **Skor Delta ROUGE:** Perbedaan absolut rata-rata dalam skor ROUGE untuk input asli dan terganggu. Skor ROUGE dihitung dengan cara yang sama seperti skor ROUGE di. [Ringkasan](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-summarization) 
+  **Skor Delta METEOR:** Perbedaan absolut rata-rata dalam skor METEOR untuk input asli dan yang terganggu. Skor METEOR dihitung dengan cara yang sama seperti skor METEOR di. [Ringkasan](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-summarization) 
+  **Delta BertScore:** Perbedaan absolut rata-rata dalam BertScore untuk input asli dan terganggu. BertScores dihitung dengan cara yang sama seperti BertScore di. [Ringkasan](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-summarization) 

### Menjawab pertanyaan
<a name="clarify-semantic-robustness-evaluation-qa"></a>

 Untuk tugas menjawab pertanyaan, ketahanan semantik mengukur skor berikut saat menggunakan input yang terganggu, serta Delta untuk setiap skor. Skor Delta mewakili perbedaan absolut rata-rata antara skor input asli dan skor input yang terganggu. 
+  **Skor Delta F1 Over Words:** Perbedaan absolut rata-rata dalam skor F1 Over Words untuk input asli dan terganggu. Skor F1 Over Words dihitung dengan cara yang sama seperti skor F1 Over Words di. [Menjawab pertanyaan](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-qa) 
+  **Skor Delta Exact Match:** Perbedaan absolut rata-rata dalam skor Exact Match untuk input asli dan terganggu. Skor Exact Match dihitung dengan cara yang sama seperti skor Exact Match di[Menjawab pertanyaan](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-qa).
+  **Skor Delta Quasi Exact Match:** Perbedaan absolut rata-rata dalam skor Quasi Exact Match untuk input asli dan terganggu. Skor Quasi Exact Match dihitung dengan cara yang sama seperti skor Quasi Exact Match di [Menjawab pertanyaan](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-qa) 
+  **Skor Delta Precision Over Words:** Perbedaan absolut rata-rata dalam skor Precision Over Words untuk input asli dan terganggu. Skor Precision Over Words dihitung dengan cara yang sama seperti skor Precision Over Words di[Menjawab pertanyaan](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-qa). 
+  **Skor Delta Recall Over Words:** Perbedaan absolut rata-rata dalam skor Recall Over Words untuk input asli dan terganggu. Skor Recall Over Words dihitung dengan cara yang sama seperti skor Recall Over Words di[Menjawab pertanyaan](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-qa). 

### Klasifikasi
<a name="clarify-semantic-robustness-evaluation-classification"></a>

 Untuk tugas klasifikasi, ketahanan semantik mengukur akurasi saat menggunakan input yang terganggu, serta Delta untuk setiap skor. Skor Delta mewakili perbedaan absolut rata-rata antara skor input asli dan skor input yang terganggu. 
+  **Skor Akurasi Delta:** Perbedaan absolut rata-rata dalam skor Akurasi untuk input asli dan yang terganggu. Skor Akurasi dihitung dengan cara yang sama seperti skor Akurasi di[Klasifikasi](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-classification).

### Open-ended generasi
<a name="clarify-semantic-robustness-evaluation-open-ended"></a>

Evaluasi ketahanan semantik untuk generasi terbuka tidak dapat dibuat di Studio. Mereka harus dibuat menggunakan `fmeval` perpustakaan dengan [GeneralSemanticRobustness](https://github.com/aws/fmeval/blob/91e675be24800a262faf8bf6e59f07522b5314ea/src/fmeval/eval_algorithms/general_semantic_robustness.py#L81C7-L81C32). Alih-alih menghitung perbedaan skor untuk generasi terbuka, evaluasi ketahanan semantik mengukur perbedaan dalam generasi model antara input asli dan input yang terganggu. Ketidaksamaan ini diukur dengan menggunakan strategi berikut: 
+ ***[Tingkat kesalahan kata](https://huggingface.co/spaces/evaluate-metric/wer)** (WER):* Mengukur perbedaan sintaksis antara dua generasi dengan menghitung persentase kata yang harus diubah untuk mengubah generasi pertama menjadi generasi kedua. Untuk informasi lebih lanjut tentang perhitungan WER, lihat [HuggingFace artikel tentang Tingkat Kesalahan Word](https://huggingface.co/spaces/evaluate-metric/wer). 
  +  Contoh: 
    +  **Masukan 1**: “Ini kucing” 
    +  **Masukan 2**: “Ini adalah anjing' 
    +  **Jumlah kata yang harus diubah**: 1/4, atau 25% 
    +  **WER**: 0.25 
+ **BertScore Dissimilarity (BSD):** Mengukur perbedaan semantik antara dua generasi dengan mengurangi BertScore dari 1. BSD dapat menjelaskan fleksibilitas linguistik tambahan yang tidak termasuk dalam WER karena kalimat semantik yang mirip dapat disematkan lebih dekat satu sama lain. 
  +  Misalnya, sementara WER sama ketika generasi 2 dan generasi 3 secara individual dibandingkan dengan generasi 1, skor BSD berbeda untuk memperhitungkan makna semantik. 
    +  **gen1 (masukan asli)**: `"It is pouring down today"` 
    +  **gen2 (masukan terganggu** 1): `"It is my birthday today"` 
    + **gen3 (masukan terganggu** 2): `"It is very rainy today"` 
    +  `WER(gen1, gen2)=WER(gen2, gen3)=0.4` 
    +  `BERTScore(gen1, gen2)=0.67` 
    +  `BERTScore(gen1, gen3)=0.92` 
    +  `BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33` 
    +  `BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08` 
  +  Opsi berikut didukung sebagai bagian dari [GeneralSemanticRobustnessConfig](https://github.com/aws/fmeval/blob/91e675be24800a262faf8bf6e59f07522b5314ea/src/fmeval/eval_algorithms/general_semantic_robustness.py#L54C7-L54C38)parameter:  
    +  `model_type_for_bertscore`: Nama model yang akan digunakan untuk penilaian. BertScore Dissimilarity saat ini hanya mendukung model berikut: 
      +  “`[microsoft/deberta-xlarge-mnli](https://github.com/microsoft/DeBERTa)`" (default) 
      +  "`[roberta-large-mnli](https://github.com/facebookresearch/fairseq/tree/main/examples/roberta)`" 

 **Non-deterministic model** 

 Ketika strategi pembuatan model non-deterministik, seperti pada LLM dengan suhu bukan nol, output dapat berubah meskipun inputnya sama. Dalam kasus ini, perbedaan pelaporan antara output model untuk input asli dan yang terganggu dapat menunjukkan ketahanan yang rendah secara artifial. Untuk memperhitungkan strategi non-deterministik, evaluasi ketahanan semantik menormalkan skor ketidaksamaan dengan mengurangi perbedaan rata-rata antara output model berdasarkan input yang sama.  

`max(0,d−dbase​)`
+  `d`: skor ketidaksamaan (Tingkat Kesalahan Kata atau Ketidaksamaan BertScore) antara dua generasi.
+  `dbase​`: perbedaan antara output model pada input yang sama. 