

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Konfigurasikan SageMaker Clarify Processing Job
<a name="clarify-processing-job-configure-parameters"></a>

Untuk menganalisis data dan model Anda untuk bias dan penjelasan menggunakan SageMaker Clarify, Anda harus mengonfigurasi pekerjaan pemrosesan SageMaker Clarify. Panduan ini menunjukkan cara menentukan nama dataset input, nama file konfigurasi analisis, dan lokasi keluaran untuk pekerjaan pemrosesan. Untuk mengkonfigurasi wadah pemrosesan, input pekerjaan, output, sumber daya, dan parameter lainnya, Anda memiliki dua opsi. Anda dapat menggunakan SageMaker AI `CreateProcessingJob` API, atau menggunakan SageMaker AI Python SDK API, `SageMaker ClarifyProcessor`

Untuk informasi tentang parameter yang umum untuk semua pekerjaan pemrosesan, lihat [Referensi SageMaker API Amazon](https://docs.aws.amazon.com/sagemaker/latest/APIReference/Welcome.html?icmpid=docs_sagemaker_lp).

## Mengonfigurasi tugas pemrosesan SageMaker Clarify menggunakan SageMaker API
<a name="clarify-processing-job-configure-parameters-API"></a>

Petunjuk berikut menunjukkan cara menyediakan setiap bagian dari konfigurasi spesifik SageMaker Clarify menggunakan `CreateProcessingJob` API.

1. Masukkan pengidentifikasi penelitian seragam (URI) dari gambar kontainer SageMaker Clarify di dalam `AppSpecification` parameter, seperti yang ditunjukkan pada contoh kode berikut.

   ```
   {
       "ImageUri": "the-clarify-container-image-uri"
   }
   ```
**catatan**  
URI harus mengidentifikasi image kontainer SageMaker Clarify yang sudah dibuat sebelumnya. `ContainerEntrypoint`dan `ContainerArguments` tidak didukung. Untuk informasi selengkapnya tentang SageMaker Clarify gambar kontainer, lihat[Kontainer SageMaker Klarifikasi Prebuilt](clarify-processing-job-configure-container.md).

1. Tentukan konfigurasi untuk analisis dan parameter untuk kumpulan data input Anda di dalam `ProcessingInputs` parameter.

   1. Tentukan lokasi file konfigurasi analisis JSON, yang mencakup parameter untuk analisis bias dan analisis penjelasan. `InputName`Parameter `ProcessingInput` objek harus **analysis\$1config** seperti yang ditunjukkan pada contoh kode berikut.

      ```
      {
          "InputName": "analysis_config",
          "S3Input": {
              "S3Uri": "s3://your-bucket/analysis_config.json",
              "S3DataType": "S3Prefix",
              "S3InputMode": "File",
              "LocalPath": "/opt/ml/processing/input/config"
          }
      }
      ```

      Untuk informasi selengkapnya tentang skema file konfigurasi analisis, lihat[File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).

   1. Tentukan lokasi dataset input. `InputName`Parameter `ProcessingInput` objek harus`dataset`. Parameter ini opsional jika Anda telah menyediakan “dataset\$1uri” dalam file konfigurasi analisis. Nilai-nilai berikut diperlukan dalam `S3Input` konfigurasi.

      1. `S3Uri`dapat berupa objek Amazon S3 atau awalan S3.

      1. `S3InputMode`harus dari tipe**File**.

      1. `S3CompressionType`harus bertipe `None` (nilai default).

      1. `S3DataDistributionType`harus bertipe `FullyReplicated` (nilai default).

      1. `S3DataType`bisa salah satu `S3Prefix` atau`ManifestFile`. Untuk menggunakan`ManifestFile`, `S3Uri` parameter harus menentukan lokasi file manifes yang mengikuti skema dari bagian Referensi SageMaker API [S3Uri](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_S3DataSource.html#sagemaker-Type-S3DataSource-S3Uri). File manifes ini harus mencantumkan objek S3 yang berisi data input untuk pekerjaan tersebut.

      Kode berikut menunjukkan contoh konfigurasi input.

      ```
      {
          "InputName": "dataset",
          "S3Input": {
              "S3Uri": "s3://your-bucket/your-dataset.csv",
              "S3DataType": "S3Prefix",
              "S3InputMode": "File",
              "LocalPath": "/opt/ml/processing/input/data"
          }
      }
      ```

1. Tentukan konfigurasi untuk output dari pekerjaan pemrosesan di dalam `ProcessingOutputConfig` parameter. Satu `ProcessingOutput` objek diperlukan dalam `Outputs` konfigurasi. Berikut ini diperlukan dari konfigurasi output:

   1. `OutputName`harus**analysis\$1result**.

   1. `S3Uri`harus menjadi awalan S3 ke lokasi output.

   1. `S3UploadMode` harus diatur ke **EndOfJob**.

   Kode berikut menunjukkan contoh konfigurasi output.

   ```
   {
       "Outputs": [{ 
           "OutputName": "analysis_result",
           "S3Output": { 
               "S3Uri": "s3://your-bucket/result/",
               "S3UploadMode": "EndOfJob",
               "LocalPath": "/opt/ml/processing/output"
            }
        }]
   }
   ```

1. Tentukan konfigurasi `ClusterConfig` untuk sumber daya yang Anda gunakan dalam pekerjaan pemrosesan Anda di dalam `ProcessingResources` parameter. Parameter berikut diperlukan di dalam `ClusterConfig` objek.

   1. `InstanceCount`menentukan jumlah instance komputasi di cluster yang menjalankan pekerjaan pemrosesan. Tentukan nilai yang lebih besar dari `1` untuk mengaktifkan pemrosesan terdistribusi.

   1. `InstanceType`mengacu pada sumber daya yang menjalankan pekerjaan pemrosesan Anda. Karena analisis SageMaker AI SHAP intensif komputasi, menggunakan jenis instance yang dioptimalkan untuk komputasi harus meningkatkan runtime untuk analisis. Pekerjaan pemrosesan SageMaker Clarify tidak digunakan GPUs.

   Kode berikut menunjukkan contoh konfigurasi sumber daya.

   ```
   {
       "ClusterConfig": {
            "InstanceCount": 1,
            "InstanceType": "ml.m5.xlarge",
            "VolumeSizeInGB": 20
        }
   }
   ```

1. Tentukan konfigurasi jaringan yang Anda gunakan dalam pekerjaan pemrosesan Anda di dalam `NetworkConfig` objek. Nilai-nilai berikut diperlukan dalam konfigurasi.

   1. `EnableNetworkIsolation`harus disetel ke `False` (default) sehingga SageMaker Clarify dapat memanggil titik akhir, jika perlu, untuk prediksi.

   1. Jika model atau titik akhir yang Anda berikan ke pekerjaan SageMaker Clarify berada dalam Amazon Virtual Private Cloud (Amazon VPC), maka pekerjaan SageMaker Clarify juga harus dalam VPC yang sama. Tentukan VPC menggunakan. [VpcConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_VpcConfig.html) Selain itu, VPC harus memiliki titik akhir ke bucket Amazon S3, layanan SageMaker AI, dan layanan AI Runtime. SageMaker 

      Jika pemrosesan terdistribusi diaktifkan, Anda juga harus mengizinkan komunikasi antara instance yang berbeda dalam pekerjaan pemrosesan yang sama. Konfigurasikan aturan untuk grup keamanan Anda yang memungkinkan koneksi masuk antara anggota grup keamanan yang sama. Untuk informasi selengkapnya, lihat [Berikan Amazon SageMaker Clarify Lowongan Akses ke Sumber Daya di Amazon VPC Anda](clarify-vpc.md). 

   Kode berikut memberikan contoh konfigurasi jaringan.

   ```
   {
       "EnableNetworkIsolation": False,
       "VpcConfig": {
           ...
       }
   }
   ```

1. Atur waktu maksimum pekerjaan akan berjalan menggunakan `StoppingCondition` parameter. Waktu terpanjang yang dapat dijalankan oleh pekerjaan SageMaker Clarify adalah `7` berhari-hari atau `604800` detik. Jika pekerjaan tidak dapat diselesaikan dalam batas waktu ini, itu akan dihentikan dan tidak ada hasil analisis yang akan diberikan. Sebagai contoh, konfigurasi berikut membatasi waktu maksimum pekerjaan dapat berjalan hingga 3600 detik.

   ```
   {
       "MaxRuntimeInSeconds": 3600
   }
   ```

1. Tentukan peran IAM untuk `RoleArn` parameter. Peran tersebut harus memiliki hubungan kepercayaan dengan Amazon SageMaker AI. Ini dapat digunakan untuk melakukan operasi SageMaker API yang tercantum dalam tabel berikut. Sebaiknya gunakan kebijakan terkelola Amazon SageMaker AIFull Access, yang memberikan akses penuh ke SageMaker AI. Untuk informasi lebih lanjut tentang kebijakan ini, lihat[AWS kebijakan terkelola: AmazonSageMakerFullAccess](security-iam-awsmanpol.md#security-iam-awsmanpol-AmazonSageMakerFullAccess). Jika Anda memiliki kekhawatiran tentang pemberian akses penuh, izin minimal yang diperlukan bergantung pada apakah Anda memberikan model atau nama titik akhir. Menggunakan nama titik akhir memungkinkan pemberian lebih sedikit izin ke AI. SageMaker 

   Tabel berikut berisi operasi API yang digunakan oleh tugas pemrosesan SageMaker Clarify. **X**Di bawah **Nama Model dan nama** **Endpoint** mencatat operasi API yang diperlukan untuk setiap input.    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/clarify-processing-job-configure-parameters.html)

   Untuk informasi lebih lanjut tentang izin yang diperlukan, lihat [Izin Amazon SageMaker AI API: Tindakan, Izin, dan Referensi Sumber Daya](api-permissions-reference.md).

   Untuk informasi lebih lanjut tentang meneruskan peran ke SageMaker AI, lihat[Peran Lulus](sagemaker-roles.md#sagemaker-roles-pass-role).

   Setelah Anda memiliki masing-masing bagian dari konfigurasi pekerjaan pemrosesan, gabungkan mereka untuk mengonfigurasi pekerjaan.

## Konfigurasikan pekerjaan pemrosesan SageMaker Clarify menggunakan AWS SDK untuk Python
<a name="clarify-processing-job-configure-parameters-SDK"></a>

Contoh kode berikut menunjukkan cara meluncurkan pekerjaan pemrosesan SageMaker Clarify menggunakan [AWS SDK untuk Python](https://aws.amazon.com/sdk-for-python/).

```
sagemaker_client.create_processing_job(
    ProcessingJobName="your-clarify-job-name",
    AppSpecification={
        "ImageUri": "the-clarify-container-image-uri",
    },
    ProcessingInputs=[{
            "InputName": "analysis_config",
            "S3Input": {
                "S3Uri": "s3://your-bucket/analysis_config.json",
                "S3DataType": "S3Prefix",
                "S3InputMode": "File",
                "LocalPath": "/opt/ml/processing/input/config",
            },
        }, {
            "InputName": "dataset",
            "S3Input": {
                "S3Uri": "s3://your-bucket/your-dataset.csv",
                "S3DataType": "S3Prefix",
                "S3InputMode": "File",
                "LocalPath": "/opt/ml/processing/input/data",
            },
        },
    ],
    ProcessingOutputConfig={
        "Outputs": [{ 
            "OutputName": "analysis_result",
            "S3Output": { 
               "S3Uri": "s3://your-bucket/result/",
               "S3UploadMode": "EndOfJob",
               "LocalPath": "/opt/ml/processing/output",
            },   
        }],
    },
    ProcessingResources={
        "ClusterConfig": {
            "InstanceCount": 1,
            "InstanceType": "ml.m5.xlarge",
            "VolumeSizeInGB": 20,
        },
    },
    NetworkConfig={
        "EnableNetworkIsolation": False,
        "VpcConfig": {
            ...
        },
    },
    StoppingCondition={
        "MaxRuntimeInSeconds": 3600,
    },
    RoleArn="arn:aws:iam::<your-account-id>:role/service-role/AmazonSageMaker-ExecutionRole",
)
```

Untuk contoh buku catatan dengan instruksi untuk menjalankan tugas pemrosesan SageMaker Clarify menggunakan AWS SDK untuk Python, [lihat Keadilan dan Keterjelasan dengan SageMaker Clarify](http://github.com/aws/amazon-sagemaker-examples/blob/main/sagemaker-clarify/fairness_and_explainability/fairness_and_explainability_boto3.ipynb) using SDK for Python. AWS Bucket S3 apa pun yang digunakan di notebook harus berada di AWS Region yang sama dengan instance notebook yang mengaksesnya.

## Konfigurasikan pekerjaan pemrosesan SageMaker Clarify menggunakan SageMaker Python SDK
<a name="clarify-processing-job-configure-parameters-SM-SDK"></a>

Anda juga dapat mengonfigurasi pekerjaan pemrosesan SageMaker Clarify menggunakan [SageMaker ClarifyProcessor](https://sagemaker.readthedocs.io/en/stable/api/training/processing.html#sagemaker.clarify.SageMakerClarifyProcessor)API SDK SageMaker Python. Untuk informasi selengkapnya, lihat [Jalankan Pekerjaan Pemrosesan SageMaker Klarifikasi untuk Analisis Bias dan Penjelasan](clarify-processing-job-run.md).

**Topics**
+ [Kontainer SageMaker Klarifikasi Prebuilt](clarify-processing-job-configure-container.md)
+ [File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md)
+ [Panduan Kompatibilitas Format Data](clarify-processing-job-data-format.md)

# Kontainer SageMaker Klarifikasi Prebuilt
<a name="clarify-processing-job-configure-container"></a>

Amazon SageMaker AI menyediakan gambar kontainer SageMaker Clarify bawaan yang menyertakan pustaka dan dependensi lain yang diperlukan untuk menghitung metrik bias dan atribusi fitur untuk penjelasan. Gambar-gambar ini mampu menjalankan [pekerjaan pemrosesan SageMaker Clarify](processing-job.md) di akun Anda.

Gambar URIs untuk wadah dalam bentuk berikut:

```
<ACCOUNT_ID>.dkr.ecr.<REGION_NAME>.amazonaws.com/sagemaker-clarify-processing:1.0
```

Contoh:

```
111122223333.dkr.ecr.us-east-1.amazonaws.com/sagemaker-clarify-processing:1.0
```

Tabel berikut mencantumkan alamat oleh Wilayah AWS.

Gambar Docker untuk Pekerjaan Pemrosesan SageMaker Klarifikasi


| Region | Alamat gambar | 
| --- | --- | 
| AS Timur (Virginia Utara) | 205585389593.dkr. ecr.us-east-1.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| AS Timur (Ohio) | 211330385671.dkr. ecr.us-east-2.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| AS Barat (California Utara) | 740489534195.dkr. ecr.us-west-1.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| AS Barat (Oregon) | 306415355426.dkr. ecr.us-west-2.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Asia Pasifik (Hong Kong) | 098760798382.dkr. ecr.ap-east-1.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Asia Pasifik (Mumbai) | 452307495513.dkr. ecr.ap-south-1.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Asia Pasifik (Jakarta) | 705930551576.dkr. ecr.ap-southeast-3.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Asia Pasifik (Tokyo) | 377024640650.dkr. ecr.ap-northeast-1.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Asia Pasifik (Seoul) | 263625296855.dkr. ecr.ap-northeast-2.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Asia Pasifik (Osaka) | 912233562940.dkr. ecr.ap-northeast-3.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Asia Pasifik (Singapura) | 834264404009.dkr. ecr.ap-southeast-1.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Asia Pasifik (Sydney) | 007051062584.dkr. ecr.ap-southeast-2.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Kanada (Pusat) | 675030665977.dkr. ecr.ca-central-1.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Eropa (Frankfurt) | 017069133835.dkr. ecr.eu-central-1.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Europe (Zurich) | 730335477804.dkr. ecr.eu-central-2.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Eropa (Irlandia) | 131013547314.dkr. ecr.eu-west-1.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Eropa (London) | 440796970383.dkr. ecr.eu-west-2.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Eropa (Paris) | 341593696636.dkr. ecr.eu-west-3.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Eropa (Stockholm) | 763603941244.dkr. ecr.eu-north-1.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Timur Tengah (Bahrain) | 835444307964.dkr. ecr.me-south-1.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Amerika Selatan (Sao Paulo) | 520018980103.dkr. ecr.sa-east-1.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Africa (Cape Town) | 811711786498.dkr. ecr.af-south-1.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Europe (Milan) | 638885417683.dkr. ecr.eu-south-1.amazonaws.com /:1.0 sagemaker-clarify-processing | 
| Tiongkok (Beijing) | 122526803553.dkr. ecr.cn-north-1.amazonaws.com .cn/:1.0 sagemaker-clarify-processing | 
| Tiongkok (Ningxia) | 122578899357.dkr. ecr.cn-northwest-1.amazonaws.com .cn/:1.0 sagemaker-clarify-processing | 

# File Konfigurasi Analisis
<a name="clarify-processing-job-configure-analysis"></a>

Untuk menganalisis data dan model Anda untuk menjelaskan dan bias menggunakan SageMaker Clarify, Anda harus mengonfigurasi pekerjaan pemrosesan. Bagian dari konfigurasi untuk pekerjaan pemrosesan ini mencakup konfigurasi file analisis. File analisis menentukan parameter untuk analisis bias dan penjelasan. Lihat [Konfigurasikan SageMaker Clarify Processing Job](clarify-processing-job-configure-parameters.md) untuk mempelajari cara mengonfigurasi pekerjaan pemrosesan dan file analisis.

Panduan ini menjelaskan skema dan parameter untuk file konfigurasi analisis ini. Panduan ini juga mencakup contoh file konfigurasi analisis untuk metrik bias komputasi untuk kumpulan data tabel, dan menghasilkan penjelasan untuk masalah pemrosesan bahasa alami (NLP), visi komputer (CV), dan deret waktu (TS).

Anda dapat membuat file konfigurasi analisis atau menggunakan [SageMaker Python SDK](https://sagemaker.readthedocs.io/) untuk menghasilkan satu untuk Anda dengan API. [SageMaker ClarifyProcessor](https://sagemaker.readthedocs.io/en/stable/api/training/processing.html#sagemaker.clarify.SageMakerClarifyProcessor) Melihat isi file dapat membantu untuk memahami konfigurasi dasar yang digunakan oleh tugas SageMaker Clarify.

**Topics**
+ [Skema untuk file konfigurasi analisis](#clarify-processing-job-configure-schema)
+ [Contoh file konfigurasi analisis](#clarify-processing-job-configure-analysis-examples)

## Skema untuk file konfigurasi analisis
<a name="clarify-processing-job-configure-schema"></a>

Bagian berikut menjelaskan skema untuk file konfigurasi analisis termasuk persyaratan dan deskripsi parameter.

### Persyaratan untuk file konfigurasi analisis
<a name="clarify-processing-job-configure-schema-requirements"></a>

 Pekerjaan pemrosesan SageMaker Clarify mengharapkan file konfigurasi analisis terstruktur dengan persyaratan berikut:
+ Nama input pemrosesan harus `analysis_config.`
+ File konfigurasi analisis dalam format JSON, dan dikodekan dalam UTF-8.
+ File konfigurasi analisis adalah objek Amazon S3.

Anda dapat menentukan parameter tambahan dalam file konfigurasi analisis. Bagian berikut menyediakan berbagai opsi untuk menyesuaikan pekerjaan pemrosesan SageMaker Clarify untuk kasus penggunaan Anda dan jenis analisis yang diinginkan.

### Parameter untuk file konfigurasi analisis
<a name="clarify-processing-job-configure-analysis-parameters"></a>

Dalam file konfigurasi analisis, Anda dapat menentukan parameter berikut.
+ **versi** - (Opsional) String versi skema file konfigurasi analisis. Jika versi tidak disediakan, SageMaker Clarify menggunakan versi terbaru yang didukung. Saat ini, satu-satunya versi yang didukung adalah`1.0`.
+ **dataset\$1type** — Format dataset. Format dataset input dapat berupa salah satu dari nilai berikut:
  + Tabular
    + `text/csv`untuk CSV
    + `application/jsonlines`untuk [SageMaker format padat AI JSON Lines](https://docs.aws.amazon.com/sagemaker/latest/dg/cdf-inference.html#cm-jsonlines)
    + `application/json`untuk JSON
    + `application/x-parquet`untuk Apache Parquet
    + `application/x-image`untuk mengaktifkan penjelasan untuk masalah penglihatan komputer
  + Penjelasan model peramalan deret waktu
    + `application/json`untuk JSON
+ **dataset\$1uri** — (Opsional) Pengidentifikasi sumber daya seragam (URI) dari kumpulan data utama. Jika Anda memberikan awalan URI S3, pekerjaan pemrosesan SageMaker Clarify secara rekursif mengumpulkan semua file S3 yang terletak di bawah awalan. Anda dapat memberikan awalan URI S3 atau URI S3 ke file manifes gambar untuk masalah penglihatan komputer. Jika `dataset_uri` disediakan, itu lebih diutamakan daripada input pekerjaan pemrosesan dataset. Untuk semua jenis format kecuali kasus penggunaan gambar dan deret waktu, pekerjaan pemrosesan SageMaker Clarify memuat kumpulan data input ke dalam bingkai data tabel, sebagai kumpulan data **tabular**. Format ini memungkinkan SageMaker AI untuk dengan mudah memanipulasi dan menganalisis dataset input.
+ **header** - (Opsional)
  + **Tabular:** Sebuah array string yang berisi nama kolom dari dataset tabular. Jika nilai tidak disediakan`headers`, tugas pemrosesan SageMaker Clarify akan membaca header dari kumpulan data. Jika kumpulan data tidak memiliki header, maka pekerjaan pemrosesan Clarify secara otomatis menghasilkan nama placeholder berdasarkan indeks kolom berbasis nol. Misalnya, nama placeholder untuk kolom pertama dan kedua adalah**column\$10**,**column\$11**, dan seterusnya.
**catatan**  
Dengan konvensi, jika `dataset_type` ada `application/jsonlines` atau`application/json`, maka `headers` harus berisi nama-nama berikut secara berurutan:  
nama fitur
nama label (jika `label` ditentukan)
nama label yang diprediksi (jika `predicted_label` ditentukan)
Contoh `headers` untuk tipe `application/jsonlines` dataset jika ditentukan `label` adalah:`["feature1","feature2","feature3","target_label"]`.
  + **Deret waktu:** Daftar nama kolom dalam kumpulan data. Jika tidak disediakan, Clarify menghasilkan header untuk digunakan secara internal. Untuk kasus penjelasan deret waktu, berikan header dengan urutan sebagai berikut:

    1. id barang

    1. timestamp

    1. seri waktu target

    1. semua kolom deret waktu terkait

    1. semua kolom kovariat statis
+ **label** — (Opsional) Sebuah string atau indeks integer berbasis nol. Jika disediakan, `label` digunakan untuk menemukan label kebenaran dasar, juga dikenal sebagai label yang diamati atau atribut target dalam kumpulan data tabel. Label kebenaran dasar digunakan untuk menghitung metrik bias. Nilai untuk `label` ditentukan tergantung pada nilai `dataset_type` parameter sebagai berikut.
  + Jika `dataset_type` ya**text/csv**, `label` dapat ditentukan sebagai salah satu dari berikut ini:
    + Nama kolom yang valid
    + Indeks yang berada dalam rentang kolom dataset
  + Jika `dataset_type` ya**application/parquet**, `label` harus nama kolom yang valid.
  + Jika `dataset_type` ya**application/jsonlines**, `label` harus berupa [JMESPath](https://jmespath.org/)ekspresi yang ditulis untuk mengekstrak label kebenaran dasar dari kumpulan data. Dengan konvensi, jika `headers` ditentukan, maka harus berisi nama label.
  + Jika `dataset_type` ya**application/json**, `label` harus berupa [JMESPath](https://jmespath.org/)ekspresi yang ditulis untuk mengekstrak label kebenaran dasar untuk setiap catatan dalam kumpulan data. JMESPath Ekspresi ini harus menghasilkan daftar label di mana label ke-i berkorelasi dengan catatan ke-i.
+ **predicted\$1label** — (Opsional) Sebuah string atau indeks integer berbasis nol. Jika disediakan, `predicted_label` digunakan untuk menemukan kolom yang berisi label yang diprediksi dalam kumpulan data tabel. Label yang diprediksi digunakan untuk menghitung metrik **bias** pasca-pelatihan. Parameter `predicted_label` opsional jika kumpulan data tidak menyertakan label yang diprediksi. Jika label yang diprediksi diperlukan untuk komputasi, maka pekerjaan pemrosesan SageMaker Clarify akan mendapatkan prediksi dari model.

  Nilai untuk `predicted_label` ditentukan tergantung pada nilai `dataset_type` sebagai berikut:
  + Jika `dataset_type` ya**text/csv**, `predicted_label` dapat ditentukan sebagai salah satu dari berikut ini:
    + Nama kolom yang valid. Jika `predicted_label_dataset_uri` ditentukan, tetapi tidak `predicted_label` disediakan, nama label prediksi default adalah “predicted\$1label”. 
    + Indeks yang berada dalam rentang kolom dataset. Jika `predicted_label_dataset_uri` ditentukan, maka indeks digunakan untuk menemukan kolom label yang diprediksi dalam kumpulan data label yang diprediksi.
  + Jika dataset\$1type adalah**application/x-parquet**, `predicted_label` harus nama kolom yang valid.
  + Jika dataset\$1type adalah**application/jsonlines**, `predicted_label` harus berupa [JMESPath](https://jmespath.org/)ekspresi valid yang ditulis untuk mengekstrak label yang diprediksi dari kumpulan data. Dengan konvensi, jika `headers` ditentukan, maka harus berisi nama label yang diprediksi. 
  + Jika `dataset_type` ya**application/json**, `predicted_label` harus berupa [JMESPath](https://jmespath.org/)ekspresi yang ditulis untuk mengekstrak label yang diprediksi untuk setiap catatan dalam kumpulan data. JMESPath Ekspresi harus menghasilkan daftar label yang diprediksi di mana label prediksi saya adalah untuk catatan ke-i.
+ **fitur** - (Opsional) Diperlukan untuk kasus non-time-series penggunaan jika `dataset_type` ada `application/jsonlines` atau`application/json`. Ekspresi JMESPath string ditulis untuk menemukan fitur dalam dataset input. Untuk`application/jsonlines`, JMESPath ekspresi akan diterapkan ke setiap baris untuk mengekstrak fitur untuk catatan itu. Untuk`application/json`, JMESPath ekspresi akan diterapkan ke seluruh dataset input. JMESPath Ekspresi harus mengekstrak daftar daftar, atau fitur 2D array/matrix di mana baris ke-i berisi fitur yang berkorelasi dengan catatan ke-i. Untuk `dataset_type` dari `text/csv` atau`application/x-parquet`, semua kolom kecuali label kebenaran dasar dan kolom label yang diprediksi secara otomatis ditetapkan sebagai fitur.
+ **predicted\$1label\$1dataset\$1uri — (Opsional) Hanya berlaku jika dataset\$1type** adalah. `text/csv` **URI S3 untuk kumpulan data yang berisi label prediksi yang digunakan untuk menghitung metrik bias pasca-pelatihan.** Pekerjaan pemrosesan SageMaker Clarify akan memuat prediksi dari URI yang disediakan alih-alih mendapatkan prediksi dari model. Dalam hal ini, `predicted_label` diperlukan untuk menemukan kolom label yang diprediksi dalam kumpulan data label yang diprediksi. Jika kumpulan data label yang diprediksi atau kumpulan data utama dibagi menjadi beberapa file, kolom pengidentifikasi harus ditentukan oleh `joinsource_name_or_index` untuk bergabung dengan dua kumpulan data. 
+ **predicted\$1label\$1headers** — (Opsional) Hanya berlaku bila ditentukan. `predicted_label_dataset_uri` Array string yang berisi nama kolom dari dataset label yang diprediksi. Selain header label yang diprediksi, juga `predicted_label_headers` dapat berisi header kolom pengidentifikasi untuk bergabung dengan kumpulan data label yang diprediksi dan kumpulan data utama. Untuk informasi selengkapnya, lihat deskripsi berikut untuk parameter`joinsource_name_or_index`.
+ **joinsource\$1name\$1or\$1index** — (Opsional) Nama atau indeks berbasis nol kolom dalam kumpulan data tabular yang akan digunakan sebagai kolom pengenal saat melakukan penggabungan bagian dalam. Kolom ini hanya digunakan sebagai pengenal. Ini tidak digunakan untuk perhitungan lain seperti analisis bias atau analisis atribusi fitur. Nilai untuk `joinsource_name_or_index` diperlukan dalam kasus-kasus berikut:
  + Ada beberapa kumpulan data input, dan siapa pun dibagi menjadi beberapa file.
  + Pemrosesan terdistribusi diaktifkan dengan mengatur pekerjaan pemrosesan SageMaker Clarify [InstanceCount](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProcessingClusterConfig.html#sagemaker-Type-ProcessingClusterConfig-InstanceCount)ke nilai yang lebih besar dari`1`.
+ **excluded\$1columns** — (Opsional) Sebuah array nama atau indeks kolom berbasis nol yang akan dikecualikan dari dikirim ke model sebagai masukan untuk prediksi. Label kebenaran dasar dan label yang diprediksi secara otomatis sudah dikecualikan. Fitur ini tidak didukung untuk deret waktu.
+ **probability\$1threshold** — (Opsional) Nomor floating point di atasnya, label atau objek dipilih. Nilai default-nya adalah `0.5`. Pekerjaan pemrosesan SageMaker Clarify digunakan `probability_threshold` dalam kasus-kasus berikut:
  + Dalam analisis bias pasca-pelatihan, `probability_threshold` ubah prediksi model numerik (nilai probabilitas atau skor) menjadi label biner, jika modelnya adalah pengklasifikasi biner. Skor yang lebih besar dari ambang dikonversi menjadi`1`. Sedangkan, skor kurang dari atau sama dengan ambang dikonversi menjadi`0`.
  + Dalam masalah penjelasan visi komputer, jika model\$1type **OBJECT\$1DETECTION** `, probability_threshold` menyaring objek yang terdeteksi dengan skor kepercayaan lebih rendah dari nilai ambang batas.
+ **label\$1values\$1or\$1threshold** — (Opsional) Diperlukan untuk analisis bias. Array nilai label atau nomor ambang batas, yang menunjukkan hasil positif untuk kebenaran dasar dan label prediksi untuk metrik bias. Untuk informasi lebih lanjut, lihat nilai label positif di[Amazon SageMaker Klarifikasi Persyaratan untuk Bias dan Keadilan](clarify-detect-data-bias.md#clarify-bias-and-fairness-terms). Jika labelnya numerik, ambang batas diterapkan sebagai batas bawah untuk memilih hasil positif. `label_values_or_threshold`Untuk mengatur berbagai jenis masalah, lihat contoh berikut:
  + Untuk masalah klasifikasi biner, label memiliki dua nilai yang mungkin, `0` dan`1`. Jika nilai `1` label menguntungkan untuk kelompok demografis yang diamati dalam sampel, maka `label_values_or_threshold` harus diatur ke`[1]`.
  + Untuk masalah klasifikasi multiclass, label memiliki tiga nilai yang mungkin,**bird**, **cat** dan. **dog** Jika dua yang terakhir mendefinisikan kelompok demografis yang disukai bias, maka `label_values_or_threshold` harus diatur ke. `["cat","dog"]`
  + Untuk masalah regresi, nilai label kontinu, mulai dari `0` hingga. `1` Jika nilai yang lebih besar dari `0.5` seharusnya menunjuk sampel sebagai memiliki hasil positif, maka `label_values_or_threshold` harus diatur ke`0.5`.
+ **facet** — (Opsional) Diperlukan untuk analisis bias. Array objek faset, yang terdiri dari atribut sensitif yang mengukur bias. Anda dapat menggunakan aspek untuk memahami karakteristik bias dari kumpulan data dan model Anda bahkan jika model Anda dilatih tanpa menggunakan atribut sensitif. Untuk informasi lebih lanjut, lihat **Facet** di[Amazon SageMaker Klarifikasi Persyaratan untuk Bias dan Keadilan](clarify-detect-data-bias.md#clarify-bias-and-fairness-terms). Setiap objek facet mencakup bidang-bidang berikut:
  + **name\$1or\$1index** — (Opsional) Nama atau indeks berbasis nol dari kolom atribut sensitif dalam kumpulan data tabular. Jika `facet_dataset_uri` ditentukan, maka indeks mengacu pada dataset faset alih-alih dataset utama.
  + **value\$1or\$1threshold** — (Opsional) Diperlukan jika `facet` numerik dan `label_values_or_threshold` diterapkan sebagai batas bawah untuk memilih grup sensitif). Array nilai faset atau angka ambang batas, yang menunjukkan kelompok demografis sensitif yang disukai bias. Jika tipe data facet kategoris dan tidak `value_or_threshold` disediakan, metrik bias dihitung sebagai satu grup untuk setiap nilai unik (bukan semua nilai). `value_or_threshold`Untuk mengatur tipe `facet` data yang berbeda, lihat contoh berikut:
    + Untuk tipe data facet biner, fitur ini memiliki dua nilai yang mungkin, `0` dan`1`. Jika Anda ingin menghitung metrik bias untuk setiap nilai, maka `value_or_threshold` dapat dihilangkan atau disetel ke array kosong.
    + Untuk tipe data facet kategoris, fitur ini memiliki tiga nilai yang mungkin**bird**,, **cat** dan. **dog** Jika dua yang pertama mendefinisikan kelompok demografis yang disukai bias, maka `value_or_threshold` harus diatur ke. `["bird", "cat"]` Dalam contoh ini, sampel dataset dibagi menjadi dua kelompok demografis. Aspek dalam kelompok yang diuntungkan memiliki nilai **bird** atau**cat**, sedangkan segi dalam kelompok yang kurang beruntung memiliki nilai. **dog**
    + Untuk tipe data facet numerik, nilai fitur kontinu, mulai dari `0` hingga. `1` Sebagai contoh, jika nilai yang lebih besar dari `0.5` seharusnya menunjuk sampel sebagai disukai, maka `value_or_threshold` harus diatur ke. `0.5` Dalam contoh ini, sampel dataset dibagi menjadi dua kelompok demografis. Aspek dalam kelompok yang diuntungkan memiliki nilai lebih besar dari`0.5`, sedangkan segi dalam kelompok yang kurang beruntung memiliki nilai kurang dari atau sama dengan. `0.5`
+ **group\$1variable** — (Opsional) Nama atau indeks berbasis nol dari kolom yang menunjukkan subkelompok yang akan digunakan untuk metrik bias atau. [Disparitas Demografis Bersyarat (CDD)](clarify-data-bias-metric-cddl.md) [Disparitas Demografis Bersyarat dalam Label yang Diprediksi (CDDPL)](clarify-post-training-bias-metric-cddpl.md)
+ **facet\$1dataset\$1uri — (Opsional) Hanya berlaku jika dataset\$1type** adalah. `text/csv` URI S3 untuk kumpulan data yang berisi atribut sensitif untuk analisis bias. Anda dapat menggunakan aspek untuk memahami karakteristik bias dari kumpulan data dan model Anda bahkan jika model Anda dilatih tanpa menggunakan atribut sensitif.
**catatan**  
Jika kumpulan data faset atau kumpulan data utama dibagi menjadi beberapa file, kolom pengidentifikasi harus ditentukan oleh `joinsource_name_or_index` untuk bergabung dengan dua kumpulan data. Anda harus menggunakan parameter `facet` untuk mengidentifikasi setiap aspek dalam dataset faset.
+ **facet\$1headers** - (Opsional) Hanya berlaku bila ditentukan. `facet_dataset_uri` Array string yang berisi nama kolom untuk dataset faset, dan secara opsional, header kolom pengidentifikasi untuk bergabung dengan dataset faset dan dataset utama, lihat. `joinsource_name_or_index`
+ **time\$1series\$1data\$1config** - (Opsional) Menentukan konfigurasi yang akan digunakan untuk pengolahan data dari deret waktu. 
  + **item\$1id** — Sebuah string atau indeks integer berbasis nol. Bidang ini digunakan untuk menemukan id item di dataset input bersama.
  + **timestamp** — Sebuah string atau indeks integer berbasis nol. Bidang ini digunakan untuk menemukan stempel waktu dalam kumpulan data input bersama.
  + **dataset\$1format** — Nilai yang mungkin adalah`columns`,, atau. `item_records` `timestamp_records` Bidang ini digunakan untuk menggambarkan format kumpulan data JSON, yang merupakan satu-satunya format yang didukung untuk penjelasan deret waktu.
  + **target\$1time\$1series** — Sebuah JMESPath string atau indeks integer berbasis nol. Bidang ini digunakan untuk menemukan deret waktu target dalam kumpulan data input bersama. Jika parameter ini adalah string, maka semua parameter lain kecuali `dataset_format` harus string atau daftar string. Jika parameter ini adalah bilangan bulat, maka semua parameter lain kecuali `dataset_format` harus bilangan bulat atau daftar bilangan bulat.
  + **related\$1time\$1series** — (Opsional) Sebuah array ekspresi. JMESPath Bidang ini digunakan untuk menemukan semua deret waktu terkait dalam kumpulan data input bersama, jika ada.
  + **static\$1covariates** — (Opsional) Sebuah array ekspresi. JMESPath Bidang ini digunakan untuk menemukan semua bidang kovariat statis dalam kumpulan data input bersama, jika ada.

  Sebagai contoh, lihat [Contoh konfigurasi kumpulan data deret waktu](clarify-processing-job-data-format-time-series.md#clarify-processing-job-data-format-time-series-ex).
+ **Metode** — Objek yang berisi satu atau lebih metode analisis dan parameternya. Jika ada metode yang dihilangkan, itu tidak digunakan untuk analisis atau dilaporkan.
  + **pre\$1training\$1bias** — Sertakan metode ini jika Anda ingin menghitung metrik bias pra-pelatihan. Penjelasan rinci tentang metrik dapat ditemukan di[Metrik Bias Pra-pelatihan](clarify-measure-data-bias.md). Objek memiliki parameter berikut:
    + **method** — Array yang berisi salah satu metrik bias pra-pelatihan dari daftar berikut yang ingin Anda hitung. Setel `methods` **all** untuk menghitung semua metrik bias pra-pelatihan. Sebagai contoh, array `["CI", "DPL"]` akan menghitung **Ketidakseimbangan Kelas** dan **Perbedaan dalam Proporsi Label.**
      + `CI`untuk [Ketidakseimbangan Kelas (CI)](clarify-bias-metric-class-imbalance.md)
      + `DPL`untuk [Perbedaan Proporsi Label (DPL)](clarify-data-bias-metric-true-label-imbalance.md)
      + `KL`untuk [Divergensi Kullback-Leibler (KL)](clarify-data-bias-metric-kl-divergence.md)
      + `JS`untuk [Divergensi Jensen-Shannon (JS)](clarify-data-bias-metric-jensen-shannon-divergence.md)
      + `LP`untuk [L p -norma (LP)](clarify-data-bias-metric-lp-norm.md)
      + `TVD`untuk [Jarak Variasi Total (TVD)](clarify-data-bias-metric-total-variation-distance.md)
      + `KS`untuk [Kolmogorov-Smirnov (KS)](clarify-data-bias-metric-kolmogorov-smirnov.md)
      + `CDDL`untuk [Disparitas Demografis Bersyarat (CDD)](clarify-data-bias-metric-cddl.md)
  + **post\$1training\$1bias** — Sertakan metode ini jika Anda ingin menghitung metrik bias pasca-pelatihan. Penjelasan rinci tentang metrik dapat ditemukan di[Data Pasca-pelatihan dan Metrik Bias Model](clarify-measure-post-training-bias.md). `post_training_bias`Objek memiliki parameter berikut.
    + **method** — Array yang berisi salah satu metrik bias pasca-pelatihan dari daftar berikut yang ingin Anda hitung. Setel `methods` **all** untuk menghitung semua metrik bias pasca-pelatihan. Sebagai contoh, array `["DPPL", "DI"]` menghitung **Perbedaan Proporsi Positif dalam Label yang Diprediksi** **dan Dampak** Berbeda. Metode yang tersedia adalah sebagai berikut.
      + `DPPL`untuk [Perbedaan Proporsi Positif pada Label Prediksi (DPPL)](clarify-post-training-bias-metric-dppl.md)
      + `DI`untuk [Dampak Berbeda (DI)](clarify-post-training-bias-metric-di.md)
      + `DCA`untuk [Perbedaan Penerimaan Bersyarat () DCAcc](clarify-post-training-bias-metric-dcacc.md)
      + `DCR`untuk [Perbedaan Penolakan Bersyarat (DCR)](clarify-post-training-bias-metric-dcr.md)
      + `SD`untuk [Perbedaan spesifisitas (SD)](clarify-post-training-bias-metric-sd.md)
      + `RD`untuk [Ingat Perbedaan (RD)](clarify-post-training-bias-metric-rd.md)
      + `DAR`untuk [Perbedaan Tingkat Penerimaan (DAR)](clarify-post-training-bias-metric-dar.md)
      + `DRR`untuk [Perbedaan Tingkat Penolakan (DRR)](clarify-post-training-bias-metric-drr.md)
      + `AD`untuk [Perbedaan Akurasi (AD)](clarify-post-training-bias-metric-ad.md)
      + `TE`untuk [Kesetaraan Perawatan (TE)](clarify-post-training-bias-metric-te.md)
      + `CDDPL`untuk [Disparitas Demografis Bersyarat dalam Label yang Diprediksi (CDDPL)](clarify-post-training-bias-metric-cddpl.md)
      + `FT`untuk [Fliptest Kontrafaktual (FT)](clarify-post-training-bias-metric-ft.md)
      + `GE`untuk [Entropi umum (GE)](clarify-post-training-bias-metric-ge.md)
  + **shap** - Sertakan metode ini jika Anda ingin menghitung nilai SHAP. Pekerjaan pemrosesan SageMaker Clarify mendukung algoritma Kernel SHAP. `shap`Objek memiliki parameter berikut.
    + **baseline** — (Opsional) Kumpulan data dasar SHAP, juga dikenal sebagai dataset latar belakang. Persyaratan tambahan untuk kumpulan data dasar dalam kumpulan data tabular atau masalah penglihatan komputer adalah sebagai berikut. Untuk informasi lebih lanjut tentang Garis Dasar SHAP, lihat [Garis Dasar SHAP untuk Penjelasan](clarify-feature-attribute-shap-baselines.md)
      + Untuk kumpulan data **tabular**, `baseline` dapat berupa data dasar di tempat atau URI S3 dari file dasar. Jika tidak `baseline` disediakan, pekerjaan pemrosesan SageMaker Clarify menghitung baseline dengan mengelompokkan kumpulan data input. Berikut ini diperlukan dari baseline:
        + Formatnya harus sama dengan format kumpulan data yang ditentukan oleh`dataset_type`.
        + Garis dasar hanya dapat berisi fitur yang dapat diterima model sebagai input.
        + Dataset dasar dapat memiliki satu atau lebih instance. Jumlah instance dasar secara langsung memengaruhi ukuran kumpulan data sintetis dan runtime pekerjaan.
        + Jika `text_config` ditentukan, maka nilai dasar kolom teks adalah string yang digunakan untuk menggantikan unit teks yang ditentukan oleh. `granularity` Misalnya, satu placeholder umum adalah “[MASK]”, yang digunakan untuk mewakili kata atau potongan teks yang hilang atau tidak dikenal. 

        Contoh berikut menunjukkan cara mengatur data dasar di tempat untuk parameter yang berbeda: `dataset_type`
        + Jika `dataset_type` salah satu `text/csv` atau`application/x-parquet`, model menerima empat fitur numerik, dan baseline memiliki dua contoh. Dalam contoh ini, jika satu catatan memiliki semua nilai fitur nol dan catatan lainnya memiliki semua satu nilai fitur, maka baseline harus diatur ke`[[0,0,0,0],[1,1,1,1]]`, tanpa header apa pun.
        + Jika `dataset_type` ya`application/jsonlines`, dan `features` merupakan kunci untuk daftar empat nilai fitur numerik. Selain itu, dalam contoh ini, jika baseline memiliki satu catatan dari semua nilai nol, maka `baseline` seharusnya. `[{"features":[0,0,0,0]}]`
        + Jika `dataset_type` ya`application/json`, `baseline` dataset harus memiliki struktur dan format yang sama dengan dataset input.
      + Untuk masalah **penglihatan komputer**, `baseline` bisa berupa URI S3 dari gambar yang digunakan untuk menutupi fitur (segmen) dari gambar input. Pekerjaan pemrosesan SageMaker Clarify memuat gambar topeng dan mengubah ukurannya ke resolusi yang sama dengan gambar input. Jika baseline tidak disediakan, tugas pemrosesan SageMaker Clarify menghasilkan gambar topeng [white noise](https://en.wikipedia.org/wiki/White_noise) pada resolusi yang sama dengan gambar input.
    + **features\$1to\$1explain** — (Opsional) Sebuah array string atau indeks berbasis nol dari kolom fitur untuk menghitung nilai SHAP untuk. Jika tidak `features_to_explain` disediakan, nilai SHAP dihitung untuk semua kolom fitur. Kolom fitur ini tidak dapat menyertakan kolom label atau kolom label yang diprediksi. `features_to_explain`Parameter ini hanya didukung untuk kumpulan data tabular dengan kolom numerik dan kategoris.
    + **num\$1clusters** — (Opsional) Jumlah cluster yang kumpulan data dibagi menjadi untuk menghitung dataset dasar. Setiap cluster digunakan untuk menghitung satu instance dasar. Jika tidak `baseline` ditentukan, pekerjaan pemrosesan SageMaker Clarify mencoba untuk menghitung kumpulan data dasar dengan membagi kumpulan data tabular menjadi jumlah cluster yang optimal antara dan. `1` `12` Jumlah instance dasar secara langsung mempengaruhi runtime analisis SHAP.
    + **num\$1samples** — (Opsional) Jumlah sampel yang akan digunakan dalam algoritma Kernel SHAP. Jika tidak `num_samples` disediakan, pekerjaan pemrosesan SageMaker Clarify memilih nomor untuk Anda. Jumlah sampel secara langsung mempengaruhi ukuran dataset sintetis dan runtime pekerjaan.
    + **seed** — (Opsional) Bilangan bulat yang digunakan untuk menginisialisasi generator bilangan acak semu di penjelasan SHAP untuk menghasilkan nilai SHAP yang konsisten untuk pekerjaan yang sama. Jika seed tidak ditentukan, maka setiap kali pekerjaan yang sama berjalan, model dapat menampilkan nilai SHAP yang sedikit berbeda. 
    + **use\$1logit** — (Opsional) Nilai Boolean yang menunjukkan bahwa Anda ingin fungsi logit diterapkan pada prediksi model. Default ke `false`. Jika `use_logit` ya`true`, maka nilai SHAP dihitung menggunakan koefisien regresi logistik, yang dapat diartikan sebagai rasio log-odds.
    + **save\$1local\$1shap\$1values** — (Opsional) Nilai Boolean yang menunjukkan bahwa Anda ingin nilai SHAP lokal dari setiap record dalam dataset disertakan dalam hasil analisis. Default ke `false`.

      Jika kumpulan data utama dibagi menjadi beberapa file atau pemrosesan terdistribusi diaktifkan, tentukan juga kolom pengidentifikasi menggunakan parameter. `joinsource_name_or_index` Kolom pengidentifikasi dan nilai SHAP lokal disimpan dalam hasil analisis. Dengan cara ini, Anda dapat memetakan setiap catatan ke nilai SHAP lokalnya.
    + **agg\$1method** — (Opsional) Metode yang digunakan untuk menggabungkan nilai SHAP lokal (nilai SHAP untuk setiap instance) dari semua instance ke nilai SHAP global (nilai SHAP untuk seluruh kumpulan data). Default ke `mean_abs`. Metode berikut dapat digunakan untuk menggabungkan nilai SHAP.
      + **mean\$1abs** — Rata-rata nilai SHAP lokal absolut dari semua instance.
      + **mean\$1sq** — Rata-rata nilai SHAP lokal kuadrat dari semua instance.
      + **median** — Median nilai SHAP lokal dari semua instance.
    + **text\$1config** - Diperlukan untuk penjelasan pemrosesan bahasa alami. Sertakan konfigurasi ini jika Anda ingin memperlakukan kolom teks sebagai teks dan penjelasan harus disediakan untuk masing-masing unit teks. Untuk contoh konfigurasi analisis untuk penjelasan pemrosesan bahasa alami, lihat [Konfigurasi analisis untuk penjelasan pemrosesan bahasa alami](#clarify-analysis-configure-nlp-example)
      + **granularitas** — Satuan granularitas untuk analisis kolom teks. Nilai yang valid adalah `token`, `sentence`, atau `paragraph`. **Setiap unit teks dianggap sebagai fitur**, dan nilai SHAP lokal dihitung untuk setiap unit.
      + **bahasa** — Bahasa kolom teks. Nilai yang valid adalah **chinese****danish**,**dutch**, **english****french**,**german**,**greek**,**italian**,**japanese**,**lithuanian**,**multi-language**,**norwegian bokmål**,**polish**,**portuguese**,**romanian**,**russian**,**spanish**, **afrikaans****albanian**,**arabic**,**armenian**,**basque**,**bengali**,**bulgarian**,**catalan**,**croatian**,**czech**,**estonian**,**finnish**,**gujarati**,**hebrew**, **hindi****hungarian**,**icelandic**,**indonesian**,**irish**,**kannada**,**kyrgyz**,**latvian**,**ligurian**, **luxembourgish****macedonian**, **malayalam****marathi**, **nepali****persian**,**sanskrit**, **serbian****setswana**, **sinhala****slovak**, **slovenian****swedish**, **tagalog****tamil**,**tatar**, **telugu****thai**, **turkish****ukrainian**, **urdu****vietnamese**,, **yoruba** Masukkan `multi-language` untuk campuran beberapa bahasa.
      + **max\$1top\$1tokens** — (Opsional) Jumlah maksimum token teratas, berdasarkan nilai SHAP global. Default ke `50`. Token dapat muncul beberapa kali dalam kumpulan data. Pekerjaan pemrosesan SageMaker Clarify mengumpulkan nilai SHAP dari setiap token, dan kemudian memilih token teratas berdasarkan nilai SHAP globalnya. Nilai SHAP global dari token teratas yang dipilih disertakan dalam `global_top_shap_text` bagian file analysis.json.
      + Nilai agregasi SHAP lokal.
    + **image\$1config** - Diperlukan untuk penjelasan visi komputer. Sertakan konfigurasi ini jika Anda memiliki kumpulan data input yang terdiri dari gambar dan Anda ingin menganalisisnya untuk dijelaskan dalam masalah penglihatan komputer.
      + **model\$1type** — Jenis model. Nilai yang valid meliputi:
        + `IMAGE_CLASSIFICATION`untuk model klasifikasi gambar.
        + `OBJECT_DETECTION`untuk model deteksi objek.
      + **max\$1objects** — Berlaku hanya jika model\$1type adalah**OBJECT\$1DETECTION**. Jumlah maksimum objek, diurutkan berdasarkan skor kepercayaan, terdeteksi oleh model visi komputer. Setiap objek yang diberi peringkat lebih rendah dari max\$1objects teratas berdasarkan skor kepercayaan disaring. Default ke `3`.
      + **context** - Berlaku hanya jika model\$1type adalah. **OBJECT\$1DETECTION** Ini menunjukkan apakah area di sekitar kotak pembatas objek yang terdeteksi ditutupi oleh gambar dasar atau tidak. Nilai yang valid adalah `0` untuk menutupi semuanya, atau `1` untuk menutupi apa pun. Default ke 1.
      + **iou\$1threshold** — Berlaku hanya jika `model_type` metrik persimpangan minimum over union (IOU) untuk mengevaluasi prediksi terhadap deteksi asli. **OBJECT\$1DETECTION** Metrik IOU yang tinggi sesuai dengan tumpang tindih besar antara kotak deteksi kebenaran yang diprediksi dan ground. Default ke `0.5`.
      + **num\$1segment** — (Opsional) Sebuah integer yang menentukan perkiraan jumlah segmen yang akan diberi label dalam gambar input. Setiap segmen gambar dianggap sebagai fitur, dan nilai SHAP lokal dihitung untuk setiap segmen. Default ke `20`.
      + **segment\$1compactness** [— (Opsional) Bilangan bulat yang menentukan bentuk dan ukuran segmen gambar yang dihasilkan oleh metode scikit-image slic.](https://scikit-image.org/docs/dev/api/skimage.segmentation.html#skimage.segmentation.slic) Default ke `5`.
  + **pdp** — Sertakan metode ini untuk menghitung plot ketergantungan paral ()PDPs. Untuk contoh konfigurasi analisis yang akan dihasilkan PDPs, lihat [Hitung plot ketergantungan paral () PDPs](#clarify-analysis-configure-csv-example-pdp)
    + **fitur** - Wajib jika `shap` metode tidak diminta. Array nama fitur atau indeks untuk menghitung dan memplot plot PDP.
    + **top\$1k\$1features** - (Opsional) Menentukan jumlah fitur teratas yang digunakan untuk menghasilkan plot PDP. Jika tidak `features` disediakan, tetapi `shap` metode diminta, maka pekerjaan pemrosesan SageMaker Clarify memilih fitur teratas berdasarkan atribusi SHAP mereka. Default ke `10`.
    + **grid\$1resolution** — Jumlah bucket untuk membagi rentang nilai numerik menjadi. Ini menentukan granularitas grid untuk plot PDP.
  + **asymmetric\$1shapley\$1value** — Sertakan metode ini jika Anda ingin menghitung metrik penjelasan untuk model peramalan deret waktu. Pekerjaan pemrosesan SageMaker Clarify mendukung algoritma nilai Shapley asimetris. Nilai Shapley asimetris adalah varian dari nilai Shapley yang menjatuhkan aksioma simetri. Untuk informasi lebih lanjut, lihat [Nilai Shapley asimetris: menggabungkan pengetahuan kausal](https://arxiv.org/abs/1910.06358) ke dalam penjelasan model-agnostik. Gunakan nilai-nilai ini untuk menentukan bagaimana fitur berkontribusi pada hasil peramalan. Nilai Shapley asimetris memperhitungkan dependensi temporal dari data deret waktu yang diambil oleh model peramalan sebagai input.

    Algoritma mencakup parameter berikut:
    + **arah** — Jenis yang tersedia adalah`chronological`,`anti_chronological`, dan`bidirectional`. Struktur temporal dapat dinavigasi dalam urutan kronologis atau anti-kronologis atau keduanya. Penjelasan kronologis dibangun dengan menambahkan informasi secara berulang sejak langkah pertama dan seterusnya. Penjelasan anti-kronologis menambahkan informasi mulai dari langkah terakhir dan bergerak mundur. Urutan terakhir mungkin lebih tepat dengan adanya bias kebaruan, seperti untuk memperkirakan harga saham.
    + **granularitas** — Penjelasan granularitas yang akan digunakan. Opsi granularitas yang tersedia ditampilkan sebagai berikut:
      + **timewise** — `timewise` penjelasan tidak mahal dan memberikan informasi tentang langkah-langkah waktu tertentu saja, seperti mencari tahu seberapa banyak informasi dari hari ke-n di masa lalu berkontribusi pada peramalan hari ke-m di masa depan. Atribusi yang dihasilkan tidak menjelaskan kovariat statis individual dan tidak membedakan antara target dan deret waktu terkait.
      + **fine\$1grained** — `fine_grained` penjelasan secara komputasi lebih intensif tetapi memberikan rincian lengkap dari semua atribusi variabel input. Metode ini menghitung perkiraan penjelasan untuk mengurangi runtime. Untuk informasi selengkapnya, lihat parameter berikut`num_samples`.
**catatan**  
`fine_grained`penjelasan hanya mendukung `chronological` pesanan.
    + **num\$1samples** — (Opsional) Argumen ini diperlukan untuk `fine_grained` penjelasan. Semakin tinggi angkanya, semakin tepat perkiraannya. Angka ini harus diskalakan dengan dimensi fitur input. Aturan praktisnya adalah mengatur variabel ini ke *(1 \$1 maks (jumlah deret waktu terkait, jumlah kovariat statis)) ^2* jika hasilnya tidak terlalu besar.
    + **baseline** — (Opsional) Konfigurasi dasar untuk mengganti out-of-coalition nilai untuk kumpulan data yang sesuai (juga dikenal sebagai data latar belakang). Cuplikan berikut menunjukkan contoh konfigurasi dasar:

      ```
      {
          "related_time_series": "zero",
          "static_covariates": {
              <item_id_1>: [0, 2],
              <item_id_2>: [-1, 1]
          },
          "target_time_series": "zero"
      }
      ```
      + Untuk data temporal seperti deret waktu target atau deret waktu terkait, jenis nilai dasar dapat berupa salah satu dari nilai berikut:
        + `zero`— Semua out-of-coalition nilai diganti dengan 0.0.
        + `mean`— Semua out-of-coalition nilai diganti dengan rata-rata deret waktu.
      + Untuk kovariat statis, entri dasar hanya boleh diberikan ketika permintaan model mengambil nilai kovariat statis, dalam hal ini bidang ini diperlukan. Garis dasar harus disediakan untuk setiap item sebagai daftar. Misalnya, jika Anda memiliki kumpulan data dengan dua kovariat statis, konfigurasi dasar Anda mungkin sebagai berikut:

        ```
        "static_covariates": {
            <item_id_1>: [1, 1],
            <item_id_2>: [0, 1]
        }
        ```

        Dalam contoh sebelumnya, *<item\$1id\$11>* dan *<item\$1id\$12>* merupakan id item dari kumpulan data.
  + **report** — (Opsional) Gunakan objek ini untuk menyesuaikan laporan analisis. Parameter ini tidak didukung untuk pekerjaan penjelasan deret waktu. Ada tiga salinan laporan yang sama sebagai bagian dari hasil analisis: laporan Jupyter Notebook, laporan HTML, dan laporan PDF. Objek memiliki parameter berikut:
    + **nama** — Nama file dari file laporan. Misalnya, jika `name` ya**MyReport**, maka file laporan adalah`MyReport.ipynb`,`MyReport.html`, dan`MyReport.pdf`. Default ke `report`.
    + **title** - (Opsional) String judul untuk laporan. Default ke **SageMaker AI Analysis Report**.
+ **prediktor** — Diperlukan jika analisis membutuhkan prediksi dari model. Misalnya, ketika`shap`,`asymmetric_shapley_value`, atau `post_training_bias` metode diminta`pdp`, tetapi label yang diprediksi tidak disediakan sebagai bagian dari kumpulan data input. Berikut ini adalah parameter yang akan digunakan bersama dengan`predictor`:
  + **model\$1name** — Nama model SageMaker AI Anda yang dibuat oleh API. [CreateModel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html) Jika Anda menentukan `model_name` alih-alih endpoint\$1name, pekerjaan pemrosesan SageMaker Clarify membuat titik akhir singkat dengan nama model, yang dikenal sebagai titik akhir **bayangan, dan mendapatkan prediksi dari titik akhir**. Pekerjaan menghapus titik akhir bayangan setelah perhitungan selesai. Jika modelnya multi-model, maka `target_model` parameternya harus ditentukan. Untuk informasi selengkapnya tentang titik akhir multi-model, lihat. [Titik akhir multi-model](multi-model-endpoints.md)
  + **endpoint\$1name\$1prefix — (Opsional) Sebuah awalan** nama kustom untuk titik akhir bayangan. Berlaku jika Anda memberikan `model_name` alih-alih`endpoint_name`. Misalnya, berikan `endpoint_name_prefix` jika Anda ingin membatasi akses ke titik akhir dengan nama titik akhir. Awalan harus sesuai dengan [EndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html#sagemaker-CreateEndpoint-request-EndpointName)pola, dan panjang maksimumnya adalah`23`. Default ke `sm-clarify`.
  + **initial\$1instance\$1count** - Menentukan jumlah contoh untuk titik akhir bayangan. Diperlukan jika Anda memberikan model\$1name alih-alih endpoint\$1name. Nilai untuk `initial_instance_count` bisa berbeda dari pekerjaan, tetapi kami merekomendasikan rasio 1:1. [InstanceCount](https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_ProcessingClusterConfig.html#sagemaker-Type-ProcessingClusterConfig-InstanceCount)
  + **instance\$1type** - Menentukan jenis contoh untuk titik akhir bayangan. Diperlukan jika Anda memberikan `model_name` alih-alih`endpoint_name`. Sebagai contoh, `instance_type` dapat diatur ke “ml.m5.large”. Dalam beberapa kasus, nilai yang ditentukan untuk `instance_type` dapat membantu mengurangi waktu inferensi model. Misalnya, untuk berjalan secara efisien, model pemrosesan bahasa alami dan model visi komputer biasanya memerlukan jenis instance unit pemrosesan grafis (GPU).
  + **endpoint\$1name — Nama** titik akhir SageMaker AI Anda yang dibuat oleh API. [CreateEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html) Jika disediakan, lebih `endpoint_name` diutamakan daripada parameter. `model_name` Menggunakan titik akhir yang ada mengurangi waktu bootstrap titik akhir bayangan, tetapi juga dapat menyebabkan peningkatan beban yang signifikan untuk titik akhir tersebut. Selain itu, beberapa metode analisis (seperti `shap` dan`pdp`) menghasilkan dataset sintetis yang dikirim ke titik akhir. Hal ini dapat menyebabkan metrik titik akhir atau data yang diambil terkontaminasi oleh data sintetis, yang mungkin tidak secara akurat mencerminkan penggunaan dunia nyata. Untuk alasan ini, umumnya tidak disarankan untuk menggunakan titik akhir produksi yang ada untuk analisis SageMaker Clarify.
  + **target\$1model** — Nilai string yang diteruskan ke TargetModel parameter SageMaker AI [InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html#RequestSyntax)API. Diperlukan jika model Anda (ditentukan oleh parameter model\$1name) atau titik akhir (ditentukan oleh parameter endpoint\$1name) adalah multi-model. Untuk informasi selengkapnya tentang titik akhir multi-model, lihat. [Titik akhir multi-model](multi-model-endpoints.md)
  + **custom\$1attributes** — (Opsional) String yang memungkinkan Anda memberikan informasi tambahan tentang permintaan inferensi yang dikirimkan ke titik akhir. Nilai string diteruskan ke `CustomAttributes` parameter SageMaker AI [InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html#RequestSyntax)API.
  + **content\$1type** — content\$1type — Format input model yang akan digunakan untuk mendapatkan prediksi dari titik akhir. Jika disediakan, itu diteruskan ke `ContentType` parameter SageMaker AI [InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html#RequestSyntax)API. 
    + Untuk penjelasan visi komputer, nilai yang valid adalah**image/jpeg**, **image/png** atau. **application/x-npy** Jika tidak `content_type` disediakan, nilai defaultnya adalah**image/jpeg**.
    + Untuk penjelasan peramalan deret waktu, nilai yang valid adalah. **application/json**
    + Untuk jenis penjelasan lainnya, nilai yang valid adalah**text/csv**, **application/jsonlines,** dan. **application/json** Nilai untuk `content_type` diperlukan jika `dataset_type` ada**application/x-parquet**. Jika tidak `content_type` default ke nilai parameter. `dataset_type`
  + **accept\$1type** — Format keluaran model yang akan digunakan untuk mendapatkan prediksi dari titik akhir. Nilai untuk `accept_type` diteruskan ke `Accept` parameter SageMaker AI [InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html#RequestSyntax)API.
    + Untuk penjelasan visi komputer, jika `model_type` adalah “OBJECT\$1DETECTION” maka defaultnya. `accept_type` **application/json**
    + Untuk penjelasan peramalan deret waktu, nilai yang valid adalah. **application/json**
    + Untuk jenis penjelasan lainnya, nilai yang valid adalah**text/csv**,**application/jsonlines**, dan. **application/json** Jika nilai untuk tidak `accept_type` disediakan, `accept_type` default ke nilai parameter. `content_type`
  + **content\$1template** — String template yang digunakan untuk membangun input model dari catatan dataset. Parameter hanya `content_template` digunakan dan diperlukan jika nilai `content_type` parameternya salah satu `application/jsonlines` atau`application/json`. 

    Ketika `content_type` parameternya`application/jsonlines`, template seharusnya hanya memiliki satu placeholder`$features`, yang digantikan oleh daftar fitur saat runtime. Misalnya, jika template adalah`"{\"myfeatures\":$features}"`, dan jika catatan memiliki tiga nilai fitur numerik:`1`, `2` dan`3`, maka catatan akan dikirim ke model sebagai JSON Line. `{"myfeatures":[1,2,3]}` 

    Ketika `content_type` ada`application/json`, template dapat memiliki placeholder `$record` atau. `records` Jika placeholder adalah`record`, satu record diganti dengan record yang memiliki template yang `record_template` diterapkan padanya. Dalam hal ini, hanya satu catatan yang akan dikirim ke model sekaligus. Jika placeholder adalah`$records`, catatan diganti dengan daftar catatan, masing-masing dengan template yang disediakan oleh. `record_template`
  + **record\$1template** — String template yang akan digunakan untuk membangun setiap catatan input model dari instance dataset. Ini hanya digunakan dan diperlukan kapan `content_type` saja`application/json`. String template mungkin berisi salah satu dari berikut ini:
    + `$features`Parameter placeholder yang digantikan oleh array nilai fitur. Placeholder opsional tambahan dapat menggantikan nama header kolom fitur di. `$feature_names` Placeholder opsional ini akan diganti dengan array nama fitur.
    + Tepat satu placeholder `$features_kvp` yang digantikan oleh pasangan kunci-nilai, nama fitur dan nilai fitur.
    + Sebuah fitur dalam `headers` konfigurasi. Sebagai contoh, nama `A` fitur, yang dinotasikan oleh sintaks placeholder `"${A}"` akan diganti dengan nilai fitur untuk. `A`

    Nilai untuk `record_template` digunakan dengan `content_template` untuk membangun input model. Contoh konfigurasi yang menunjukkan cara membuat input model menggunakan konten dan merekam template berikut.

    Dalam contoh kode berikut, header dan fitur didefinisikan sebagai berikut.
    + ``headers`:["A", "B"]`
    + ``features`:[[0,1], [3,4]]`

    Contoh masukan model adalah sebagai berikut.

    ```
    {
        "instances": [[0, 1], [3, 4]],
        "feature_names": ["A", "B"]
    }
    ```

    Contoh `content_template` dan nilai `record_template` parameter untuk membangun contoh masukan model sebelumnya berikut.
    + `content_template: "{\"instances\": $records, \"feature_names\": $feature_names}"`
    + `record_template: "$features"`

     Dalam contoh kode berikut, header dan fitur didefinisikan sebagai berikut.

    ```
    [
        { "A": 0, "B": 1 },
        { "A": 3, "B": 4 },
    ]
    ```

    Contoh ` content_template` dan nilai `record_template` parameter untuk membangun contoh masukan model sebelumnya berikut. 
    + `content_template: "$records"`
    + `record_template: "$features_kvp"`

    Contoh kode alternatif untuk membangun contoh masukan model sebelumnya berikut.
    + `content_template: "$records"`
    + `record_template: "{\"A\": \"${A}\", \"B\": \"${B}\"}"`

     Dalam contoh kode berikut, header dan fitur didefinisikan sebagai berikut.

    ```
    { "A": 0, "B": 1 }
    ```

    Contoh parameter content\$1template dan record\$1template nilai untuk membangun di atas: contoh masukan model sebelumnya berikut.
    + `content_template: "$record"`
    + `record_template: "$features_kvp"`

    Untuk contoh lainnya, lihat [Permintaan titik akhir untuk data deret waktu](clarify-processing-job-data-format-time-series-request-jsonlines.md).
  + **label** — (Opsional) Indeks bilangan bulat berbasis nol atau string JMESPath ekspresi yang digunakan untuk mengekstrak label yang diprediksi dari keluaran model untuk analisis bias. Jika modelnya multiclass dan `label` parameter mengekstrak semua label yang diprediksi dari output model, maka berikut ini berlaku. Fitur ini tidak didukung untuk deret waktu.
    + `probability`Parameter diperlukan untuk mendapatkan probabilitas (atau skor) yang sesuai dari output model.
    + Label prediksi dari skor tertinggi dipilih.

    Nilai untuk `label` tergantung pada nilai parameter accept\$1type sebagai berikut.
    + Jika `accept_type` ya**text/csv**, maka `label` adalah indeks dari setiap label yang diprediksi dalam output model.
    + Jika `accept_type` adalah **application/jsonlines** atau**application/json**, maka `label` adalah JMESPath ekspresi yang diterapkan pada output model untuk mendapatkan label yang diprediksi.
  + **label\$1headers** — (Opsional) Sebuah array nilai yang label dapat mengambil dalam dataset. Jika analisis bias diminta, maka `probability` parameter juga diperlukan untuk mendapatkan nilai probabilitas (skor) yang sesuai dari output model, dan label prediksi dari skor tertinggi dipilih. Jika analisis penjelasan diminta, header label digunakan untuk mempercantik laporan analisis. Nilai untuk `label_headers` diperlukan untuk penjelasan visi komputer. Misalnya, untuk masalah klasifikasi multiclass, jika label memiliki tiga nilai yang mungkin,,, dan **bird** **cat****dog**, maka `label_headers` harus disetel ke. `["bird","cat","dog"]`
  + **probabilitas** — (Opsional) Indeks bilangan bulat berbasis nol atau string JMESPath ekspresi yang digunakan untuk mengekstrak probabilitas (skor) untuk analisis penjelasan (tetapi tidak untuk penjelasan deret waktu), atau untuk memilih label yang diprediksi untuk analisis bias. Nilai `probability` tergantung pada nilai `accept_type` parameter sebagai berikut.
    + Jika ya**text/csv**, `accept_type` `probability` adalah indeks probabilitas (skor) dalam output model. Jika tidak `probability` disediakan, seluruh output model diambil sebagai probabilitas (skor).
    + Jika `accept_type` adalah data JSON (salah satu **application/jsonlines** atau**application/json**), `probability` harus berupa JMESPath ekspresi yang digunakan untuk mengekstrak probabilitas (skor) dari output model.
  + **time\$1series\$1predictor\$1config** - (Opsional) Digunakan hanya untuk penjelasan deret waktu. Digunakan untuk menginstruksikan prosesor SageMaker Clarify cara mengurai data dengan benar dari data yang diteruskan sebagai URI S3 di. `dataset_uri`
    + **forecast** — JMESPath Ekspresi yang digunakan untuk mengekstrak hasil perkiraan.

## Contoh file konfigurasi analisis
<a name="clarify-processing-job-configure-analysis-examples"></a>

Bagian berikut berisi contoh file konfigurasi analisis untuk data dalam format CSV, format JSON Lines, dan untuk pemrosesan bahasa alami (NLP), visi komputer (CV), dan penjelasan deret waktu (TS).

### Konfigurasi analisis untuk kumpulan data CSV
<a name="clarify-analysis-configure-csv-example"></a>

Contoh berikut menunjukkan cara mengkonfigurasi bias dan analisis penjelasan untuk dataset tabel dalam format CSV. Dalam contoh ini, dataset yang masuk memiliki empat kolom fitur, dan satu kolom label biner,. `Target` Isi dataset adalah sebagai berikut. Nilai label `1` menunjukkan hasil positif. Dataset disediakan untuk pekerjaan SageMaker Clarify dengan input `dataset` pemrosesan.

```
"Target","Age","Gender","Income","Occupation"
0,25,0,2850,2
1,36,0,6585,0
1,22,1,1759,1
0,48,0,3446,1
...
```

Bagian berikut menunjukkan cara menghitung metrik bias pra-pelatihan dan pasca-pelatihan, nilai SHAP, dan plot ketergantungan sebagian (PDPs) yang menunjukkan pentingnya fitur untuk kumpulan data dalam format CSV. 

#### Hitung semua metrik bias pra-pelatihan
<a name="clarify-analysis-configure-csv-example-metrics"></a>

Contoh konfigurasi ini menunjukkan cara mengukur apakah kumpulan data sampel sebelumnya bias terhadap sampel dengan **Gender** nilai. `0` Konfigurasi analisis berikut menginstruksikan pekerjaan pemrosesan SageMaker Clarify untuk menghitung semua metrik bias pra-pelatihan untuk kumpulan data.

```
{
    "dataset_type": "text/csv",
    "label": "Target",
    "label_values_or_threshold": [1],
    "facet": [
        {
            "name_or_index": "Gender",
            "value_or_threshold": [0]
        }
    ],
    "methods": {
        "pre_training_bias": {
            "methods": "all"
        }
    }
}
```

#### Hitung semua metrik bias pasca-pelatihan
<a name="clarify-analysis-configure-csv-example-postmetrics"></a>

Anda dapat menghitung metrik bias pra-pelatihan sebelum pelatihan. Namun, Anda harus memiliki model terlatih untuk menghitung metrik bias pasca-pelatihan. Contoh output berikut adalah dari model klasifikasi biner yang mengeluarkan data dalam format CSV. Dalam contoh output ini, setiap baris berisi dua kolom. Kolom pertama berisi label yang diprediksi, dan kolom kedua berisi nilai probabilitas untuk label tersebut. 

```
0,0.028986845165491
1,0.825382471084594
...
```

Contoh konfigurasi berikut menginstruksikan pekerjaan pemrosesan SageMaker Clarify untuk menghitung semua metrik bias yang mungkin menggunakan kumpulan data dan prediksi dari keluaran model. Dalam contoh, model tersebut digunakan ke titik akhir SageMaker `your_endpoint` AI.

**catatan**  
Dalam contoh kode berikut, parameter `content_type` dan tidak `accept_type` diatur. Oleh karena itu, mereka secara otomatis menggunakan nilai parameter dataset\$1type, yaitu. `text/csv`

```
{
    "dataset_type": "text/csv",
    "label": "Target",
    "label_values_or_threshold": [1],
    "facet": [
        {
            "name_or_index": "Gender",
            "value_or_threshold": [0]
        }
    ],
    "methods": {
        "pre_training_bias": {
            "methods": "all"
        },
        "post_training_bias": {
            "methods": "all"
        }
    },
    "predictor": {
        "endpoint_name": "your_endpoint",
        "label": 0
    }
}
```

#### Hitung nilai SHAP
<a name="clarify-analysis-configure-csv-example-shap"></a>

Contoh konfigurasi analisis berikut menginstruksikan pekerjaan untuk menghitung nilai SHAP yang menunjuk `Target` kolom sebagai label dan semua kolom lainnya sebagai fitur.

```
{
    "dataset_type": "text/csv",
    "label": "Target",
    "methods": {
        "shap": {
            "num_clusters": 1
        }
    },
    "predictor": {
        "endpoint_name": "your_endpoint",
        "probability": 1
    }
}
```

Dalam contoh ini, `baseline` parameter SHAP dihilangkan dan nilai parameternya. `num_clusters` `1` Ini menginstruksikan prosesor SageMaker Clarify untuk menghitung satu sampel dasar SHAP. Dalam contoh ini, probabilitas diatur ke`1`. Ini menginstruksikan pekerjaan pemrosesan SageMaker Clarify untuk mengekstrak skor probabilitas dari kolom kedua dari output model (menggunakan pengindeksan berbasis nol).

#### Hitung plot ketergantungan paral () PDPs
<a name="clarify-analysis-configure-csv-example-pdp"></a>

Contoh berikut menunjukkan bagaimana melihat pentingnya `Income` fitur pada laporan analisis menggunakan PDPs. Parameter laporan menginstruksikan pekerjaan pemrosesan SageMaker Clarify untuk menghasilkan laporan. Setelah pekerjaan selesai, laporan yang dihasilkan disimpan sebagai report.pdf ke `analysis_result` lokasi. `grid_resolution`Parameter membagi rentang nilai fitur ke dalam `10` ember. Bersama-sama, parameter yang ditentukan dalam contoh berikut menginstruksikan pekerjaan pemrosesan SageMaker Clarify untuk menghasilkan laporan yang berisi grafik PDP `Income` dengan `10` segmen pada sumbu x. Sumbu y akan menunjukkan dampak marjinal `Income` pada prediksi.

```
{
    "dataset_type": "text/csv",
    "label": "Target",
    "methods": {
        "pdp": {
            "features": ["Income"],
            "grid_resolution": 10
        },
        "report": {
            "name": "report"
        }
    },
    "predictor": {
        "endpoint_name": "your_endpoint",
        "probability": 1
    },
}
```

#### Hitung metrik bias dan kepentingan fitur
<a name="clarify-analysis-configure-csv-example-fi"></a>

 Anda dapat menggabungkan semua metode dari contoh konfigurasi sebelumnya ke dalam satu file konfigurasi analisis dan menghitung semuanya dengan satu pekerjaan. Contoh berikut menunjukkan konfigurasi analisis dengan semua langkah digabungkan. 

Dalam contoh ini, `probability` parameter diatur `1` untuk menunjukkan bahwa probabilitas terkandung dalam kolom kedua (menggunakan pengindeksan berbasis nol). Namun, karena analisis bias membutuhkan label yang diprediksi, `probability_threshold` parameter diatur `0.5` untuk mengubah skor probabilitas menjadi label biner. Dalam contoh ini, `top_k_features` parameter `pdp` metode plot ketergantungan paral diatur ke`2`. Ini SageMaker menginstruksikan pekerjaan pemrosesan Clarify untuk menghitung plot ketergantungan paral (PDPs) untuk `2` fitur teratas dengan nilai SHAP global terbesar. 

```
{
    "dataset_type": "text/csv",
    "label": "Target",
    "probability_threshold": 0.5,
    "label_values_or_threshold": [1],
    "facet": [
        {
            "name_or_index": "Gender",
            "value_or_threshold": [0]
        }
    ],
    "methods": {
        "pre_training_bias": {
            "methods": "all"
        },
        "post_training_bias": {
            "methods": "all"
        },
        "shap": {
            "num_clusters": 1
        },
        "pdp": {
            "top_k_features": 2,
            "grid_resolution": 10
        },
        "report": {
            "name": "report"
        }
    },
    "predictor": {
        "endpoint_name": "your_endpoint",
        "probability": 1
    }
}
```

Alih-alih menerapkan model ke titik akhir, Anda dapat memberikan nama model SageMaker AI Anda ke pekerjaan pemrosesan SageMaker Clarify menggunakan parameter. `model_name` Contoh berikut menunjukkan bagaimana menentukan model bernama**your\$1model**. Pekerjaan pemrosesan SageMaker Clarify akan membuat titik akhir bayangan menggunakan konfigurasi.

```
{
     ...
    "predictor": {
        "model_name": "your_model",
        "initial_instance_count": 1,
        "instance_type": "ml.m5.large",
        "probability": 1
    }
}
```

### Konfigurasi analisis untuk dataset JSON Lines
<a name="clarify-analysis-configure-JSONLines-example"></a>

Contoh berikut menunjukkan cara mengkonfigurasi analisis bias dan analisis eksplainabilitas untuk dataset tabular dalam format JSON Lines. Dalam contoh ini, dataset yang masuk memiliki data yang sama dengan bagian sebelumnya tetapi mereka berada dalam format padat SageMaker AI JSON Lines. Setiap baris adalah objek JSON yang valid. Kunci “Fitur” menunjuk ke array nilai fitur, dan kunci “Label” menunjuk ke label kebenaran dasar. Dataset disediakan untuk pekerjaan SageMaker Clarify dengan input pemrosesan “dataset”. Untuk informasi lebih lanjut tentang JSON Lines, lihat[Format permintaan JSONLINES](cdf-inference.md#cm-jsonlines).

```
{"Features":[25,0,2850,2],"Label":0}
{"Features":[36,0,6585,0],"Label":1}
{"Features":[22,1,1759,1],"Label":1}
{"Features":[48,0,3446,1],"Label":0}
...
```

Bagian berikut menunjukkan cara menghitung metrik bias pra-pelatihan dan pasca-pelatihan, nilai SHAP, dan plot ketergantungan sebagian (PDPs) yang menunjukkan pentingnya fitur untuk kumpulan data dalam format JSON Lines.

#### Hitung metrik bias pra-pelatihan
<a name="clarify-analysis-configure-JSONLines-pretraining"></a>

Tentukan label, fitur, format, dan metode untuk mengukur metrik bias pra-pelatihan untuk `Gender` nilai. `0` Dalam contoh berikut, `headers` parameter memberikan nama fitur terlebih dahulu. Nama label diberikan terakhir. Menurut konvensi, header terakhir adalah header label. 

`features`Parameter diatur ke JMESPath ekspresi “Fitur” sehingga pekerjaan pemrosesan SageMaker Clarify dapat mengekstrak array fitur dari setiap catatan. `label`Parameter diatur ke JMESPath ekspresi “Label” sehingga pekerjaan pemrosesan SageMaker Clarify dapat mengekstrak label kebenaran dasar dari setiap rekaman. Gunakan nama facet untuk menentukan atribut sensitif, sebagai berikut.

```
{
    "dataset_type": "application/jsonlines",
    "headers": ["Age","Gender","Income","Occupation","Target"],
    "label": "Label",
    "features": "Features",
    "label_values_or_threshold": [1],
    "facet": [
        {
            "name_or_index": "Gender",
            "value_or_threshold": [0]
        }
    ],
    "methods": {
        "pre_training_bias": {
            "methods": "all"
        }
    }
}
```

#### Hitung semua metrik bias
<a name="clarify-analysis-configure-JSONLines-bias"></a>

Anda harus memiliki model terlatih untuk menghitung metrik bias pasca-pelatihan. Contoh berikut adalah dari model klasifikasi biner yang mengeluarkan data JSON Lines dalam format contoh. Setiap baris output model adalah objek JSON yang valid. `predicted_label`Poin kunci untuk label yang diprediksi, dan `probability` poin-poin kunci untuk nilai probabilitas.

```
{"predicted_label":0,"probability":0.028986845165491}
{"predicted_label":1,"probability":0.825382471084594}
...
```

Anda dapat menerapkan model ke titik akhir SageMaker AI bernama. `your_endpoint` Contoh konfigurasi analisis berikut menginstruksikan pekerjaan pemrosesan SageMaker Clarify untuk menghitung semua metrik bias yang mungkin untuk kumpulan data dan model. Dalam contoh ini, parameter `content_type` dan tidak `accept_type` diatur. Oleh karena itu, mereka secara otomatis diatur untuk menggunakan nilai parameter dataset\$1type, yaitu. `application/jsonlines` Pekerjaan pemrosesan SageMaker Clarify menggunakan `content_template` parameter untuk menyusun input model, dengan mengganti `$features` placeholder dengan array fitur.

```
{
    "dataset_type": "application/jsonlines",
    "headers": ["Age","Gender","Income","Occupation","Target"],
    "label": "Label",
    "features": "Features",
    "label_values_or_threshold": [1],
    "facet": [
        {
            "name_or_index": "Gender",
            "value_or_threshold": [0]
        }
    ],
    "methods": {
        "pre_training_bias": {
            "methods": "all"
        },
        "post_training_bias": {
            "methods": "all"
        }
    },
    "predictor": {
        "endpoint_name": "your_endpoint",
        "content_template": "{\"Features\":$features}",
        "label": "predicted_label"
    }
}
```

#### Hitung nilai SHAP
<a name="clarify-analysis-configure-JSONLines-shap"></a>

Karena analisis SHAP tidak memerlukan label kebenaran dasar, `label` parameternya dihilangkan. Dalam contoh ini, `headers` parameter juga dihilangkan. Oleh karena itu, pekerjaan pemrosesan SageMaker Clarify harus menghasilkan placeholder menggunakan nama generik seperti `column_0` atau `column_1` untuk header fitur, dan `label0` untuk header label. Anda dapat menentukan nilai untuk `headers` dan `label` untuk a untuk meningkatkan keterbacaan hasil analisis. Karena parameter probabilitas diatur ke JMESPath ekspresi`probability`, nilai probabilitas akan diekstraksi dari output model. Berikut ini adalah contoh untuk menghitung nilai SHAP.

```
{
    "dataset_type": "application/jsonlines",
    "features": "Features",
    "methods": {
        "shap": {
            "num_clusters": 1
        }
    },
    "predictor": {
        "endpoint_name": "your_endpoint",
        "content_template": "{\"Features\":$features}",
        "probability": "probability"
    }
}
```

#### Hitung plot ketergantungan paral () PDPs
<a name="clarify-analysis-configure-JSONLines-pdp"></a>

Contoh berikut menunjukkan bagaimana melihat pentingnya “Penghasilan” pada PDP. Dalam contoh ini, header fitur tidak disediakan. Oleh karena itu, `features` parameter `pdp` metode harus menggunakan indeks berbasis nol untuk merujuk ke lokasi kolom fitur. `grid_resolution`Parameter membagi rentang nilai fitur ke dalam `10` ember. Bersama-sama, parameter dalam contoh menginstruksikan pekerjaan pemrosesan SageMaker Clarify untuk menghasilkan laporan yang berisi grafik PDP `Income` dengan `10` segmen pada sumbu x. Sumbu y akan menunjukkan dampak marjinal `Income` pada prediksi.

```
{
    "dataset_type": "application/jsonlines",
    "features": "Features",
    "methods": {
        "pdp": {
            "features": [2],
            "grid_resolution": 10
        },
        "report": {
            "name": "report"
        }
    },
    "predictor": {
        "endpoint_name": "your_endpoint",
        "content_template": "{\"Features\":$features}",
        "probability": "probability"
    }
}
```

#### Hitung metrik bias dan kepentingan fitur
<a name="clarify-analysis-configure-JSONLines-fi-metrics"></a>

Anda dapat menggabungkan semua metode sebelumnya ke dalam satu file konfigurasi analisis dan menghitung semuanya dengan satu pekerjaan. Contoh berikut menunjukkan konfigurasi analisis dengan semua langkah digabungkan. Dalam contoh ini, `probability` parameter diatur. Tetapi karena analisis bias membutuhkan label yang diprediksi, `probability_threshold` parameter diatur `0.5` untuk mengubah skor probabilitas menjadi label biner. Dalam contoh ini, `top_k_features` parameter `pdp` metode diatur ke`2`. Ini menginstruksikan tugas pemrosesan SageMaker Clarify PDPs untuk menghitung `2` fitur teratas dengan nilai SHAP global terbesar.

```
{
    "dataset_type": "application/jsonlines",
    "headers": ["Age","Gender","Income","Occupation","Target"],
    "label": "Label",
    "features": "Features",
    "probability_threshold": 0.5,
    "label_values_or_threshold": [1],
    "facet": [
        {
            "name_or_index": "Gender",
            "value_or_threshold": [0]
        }
    ],
    "methods": {
        "pre_training_bias": {
            "methods": "all"
        },
        "post_training_bias": {
            "methods": "all"
        },
        "shap": {
            "num_clusters": 1
        },
        "pdp": {
            "top_k_features": 2,
            "grid_resolution": 10
        },
        "report": {
            "name": "report"
        }
    },
    "predictor": {
        "endpoint_name": "your_endpoint",
        "content_template": "{\"Features\":$features}",
        "probability": "probability"
    }
}
```

### Konfigurasi analisis untuk dataset JSON
<a name="clarify-analysis-configure-JSON-example"></a>

Contoh berikut menunjukkan cara mengkonfigurasi bias dan analisis penjelasan untuk dataset tabel dalam format JSON. Dalam contoh ini, dataset yang masuk memiliki data yang sama dengan bagian sebelumnya tetapi mereka berada dalam format padat SageMaker AI JSON. Untuk informasi lebih lanjut tentang JSON Lines, lihat[Format permintaan JSONLINES](cdf-inference.md#cm-jsonlines).

Seluruh permintaan input adalah JSON yang valid di mana struktur luar adalah daftar dan setiap elemen adalah data untuk catatan. Dalam setiap catatan, `Features` poin kunci ke array nilai fitur, dan `Label` poin-poin kunci ke label kebenaran dasar. Dataset disediakan untuk pekerjaan SageMaker Clarify dengan input `dataset` pemrosesan.

```
[
    {"Features":[25,0,2850,2],"Label":0},
    {"Features":[36,0,6585,0],"Label":1},
    {"Features":[22,1,1759,1],"Label":1},
    {"Features":[48,0,3446,1],"Label":0},
    ...
]
```

Bagian berikut menunjukkan cara menghitung metrik bias pra-pelatihan dan pasca-pelatihan, nilai SHAP, dan plot ketergantungan sebagian (PDPs) yang menunjukkan pentingnya fitur untuk kumpulan data dalam format JSON Lines.

#### Hitung metrik bias pra-pelatihan
<a name="clarify-analysis-configure-JSON-example-pretraining"></a>

Tentukan label, fitur, format, dan metode untuk mengukur metrik bias pra-pelatihan untuk `Gender` nilai. `0` Dalam contoh berikut, `headers` parameter memberikan nama fitur terlebih dahulu. Nama label diberikan terakhir. Untuk dataset JSON, header terakhir adalah header label.

`features`Parameter diatur ke JMESPath ekspresi yang mengekstrak array atau matriks 2D. Setiap baris dalam matriks ini harus berisi daftar `Features` untuk setiap catatan. `label`Parameter diatur ke JMESPath ekspresi yang mengekstrak daftar label kebenaran dasar. Setiap elemen dalam daftar ini harus berisi label untuk catatan. 

Gunakan nama facet untuk menentukan atribut sensitif, sebagai berikut.

```
{
    "dataset_type": "application/json",
    "headers": ["Age","Gender","Income","Occupation","Target"],
    "label": "[*].Label",
    "features": "[*].Features",
    "label_values_or_threshold": [1],
    "facet": [
        {
            "name_or_index": "Gender",
            "value_or_threshold": [0]
        }
    ],
    "methods": {
        "pre_training_bias": {
            "methods": "all"
        }
    }
}
```

#### Hitung semua metrik bias
<a name="clarify-analysis-configure-JSON-example-bias"></a>

Anda harus memiliki model terlatih untuk menghitung metrik bias pasca-pelatihan. Contoh kode berikut adalah dari model klasifikasi biner yang mengeluarkan data JSON dalam format contoh. Dalam contoh, setiap elemen di bawah `predictions` adalah output prediksi untuk catatan. Kode contoh berisi kunci`predicted_label`, yang menunjuk ke label yang diprediksi, dan `probability` poin-poin kunci ke nilai probabilitas.

```
{
    "predictions": [
        {"predicted_label":0,"probability":0.028986845165491},
        {"predicted_label":1,"probability":0.825382471084594},
        ...
    ]
}
```

Anda dapat menerapkan model ke titik akhir SageMaker AI bernama. `your_endpoint` 

Dalam contoh berikut, parameter `content_type` dan tidak `accept_type` diatur. Oleh karena itu, `content_type` dan `accept_type` secara otomatis diatur untuk menggunakan nilai parameter`dataset_type`, yaitu`application/json`. Pekerjaan pemrosesan SageMaker Clarify kemudian menggunakan `content_template` parameter untuk menyusun input model. 

Dalam contoh berikut, input model disusun dengan mengganti `$records` placeholder dengan array catatan. Kemudian, `record_template` parameter menyusun struktur JSON setiap record dan menggantikan `$features` placeholder dengan array fitur masing-masing record.

Contoh konfigurasi analisis berikut menginstruksikan pekerjaan pemrosesan SageMaker Clarify untuk menghitung semua metrik bias yang mungkin untuk kumpulan data dan model.

```
{
    "dataset_type": "application/json",
    "headers": ["Age","Gender","Income","Occupation","Target"],
    "label": "[*].Label",
    "features": "[*].Features",
    "label_values_or_threshold": [1],
    "facet": [
        {
            "name_or_index": "Gender",
            "value_or_threshold": [0]
        }
    ],
    "methods": {
        "pre_training_bias": {
            "methods": "all"
        },
        "post_training_bias": {
            "methods": "all"
        }
    },
    "predictor": {
        "endpoint_name": "your_endpoint",
        "content_template": "$records",
        "record_template": "{\"Features\":$features}",
        "label": "predictions[*].predicted_label"
    }
}
```

#### Hitung nilai SHAP
<a name="clarify-analysis-configure-JSON-example-shap"></a>

Anda tidak perlu menentukan label untuk analisis SHAP. Dalam contoh berikut, `headers` parameter tidak ditentukan. Oleh karena itu, pekerjaan pemrosesan SageMaker Clarify akan menghasilkan placeholder menggunakan nama generik seperti `column_0` atau `column_1` untuk header fitur, dan `label0` untuk header label. Anda dapat menentukan nilai untuk `headers` dan `label` untuk a untuk meningkatkan keterbacaan hasil analisis. 

Dalam contoh konfigurasi berikut, parameter probabilitas diatur ke JMESPath ekspresi yang mengekstrak probabilitas dari setiap prediksi untuk setiap catatan. Berikut ini adalah contoh untuk menghitung nilai SHAP.

```
{
    "dataset_type": "application/json",
    "features": "[*].Features",
    "methods": {
        "shap": {
            "num_clusters": 1
        }
    },
    "predictor": {
        "endpoint_name": "your_endpoint",
        "content_template": "$records",
        "record_template": "{\"Features\":$features}",
        "probability": "predictions[*].probability"
    }
}
```

#### Hitung plot ketergantungan paral () PDPs
<a name="clarify-analysis-configure-JSON-example-pdp"></a>

Contoh berikut menunjukkan kepada Anda cara melihat kepentingan fitur di PDPs. Dalam contoh, header fitur tidak disediakan. Oleh karena itu, `features` parameter `pdp` metode harus menggunakan indeks berbasis nol untuk merujuk ke lokasi kolom fitur. `grid_resolution`Parameter membagi rentang nilai fitur ke dalam `10` ember. 

Bersama-sama, parameter dalam contoh berikut menginstruksikan pekerjaan pemrosesan SageMaker Clarify untuk menghasilkan laporan yang berisi grafik PDP `Income` dengan `10` segmen pada sumbu x. Sumbu y menunjukkan dampak marjinal `Income` pada prediksi.

Contoh konfigurasi berikut menunjukkan bagaimana melihat pentingnya `Income` on PDPs.

```
{
    "dataset_type": "application/json",
    "features": "[*].Features",
    "methods": {
        "pdp": {
            "features": [2],
            "grid_resolution": 10
        },
        "report": {
            "name": "report"
        }
    },
    "predictor": {
        "endpoint_name": "your_endpoint",
        "content_template": "$records",
        "record_template": "{\"Features\":$features}",
        "probability": "predictions[*].probability"
    }
}
```

#### Hitung metrik bias dan kepentingan fitur
<a name="clarify-analysis-configure-JSON-example-bias-fi"></a>

Anda dapat menggabungkan semua metode konfigurasi sebelumnya ke dalam satu file konfigurasi analisis dan menghitung semuanya dengan satu pekerjaan. Contoh berikut menunjukkan konfigurasi analisis dengan semua langkah digabungkan. 

Dalam contoh ini, `probability` parameter diatur. Karena analisis bias membutuhkan label yang diprediksi, `probability_threshold` parameter diatur ke`0.5`, yang digunakan untuk mengubah skor probabilitas menjadi label biner. Dalam contoh ini, `top_k_features` parameter `pdp` metode diatur ke`2`. Ini menginstruksikan tugas pemrosesan SageMaker Clarify PDPs untuk menghitung `2` fitur teratas dengan nilai SHAP global terbesar.

```
{
    "dataset_type": "application/json",
    "headers": ["Age","Gender","Income","Occupation","Target"],
    "label": "[*].Label",
    "features": "[*].Features",
    "probability_threshold": 0.5,
    "label_values_or_threshold": [1],
    "facet": [
        {
            "name_or_index": "Gender",
            "value_or_threshold": [0]
        }
    ],
    "methods": {
        "pre_training_bias": {
            "methods": "all"
        },
        "post_training_bias": {
            "methods": "all"
        },
        "shap": {
            "num_clusters": 1
        },
        "pdp": {
            "top_k_features": 2,
            "grid_resolution": 10
        },
        "report": {
            "name": "report"
        }
    },
    "predictor": {
        "endpoint_name": "your_endpoint",
        "content_template": "$records",
        "record_template": "{\"Features\":$features}",
        "probability": "predictions[*].probability"
    }
}
```

### Konfigurasi analisis untuk penjelasan pemrosesan bahasa alami
<a name="clarify-analysis-configure-nlp-example"></a>

Contoh berikut menunjukkan file konfigurasi analisis untuk fitur komputasi yang penting untuk pemrosesan bahasa alami (NLP). Dalam contoh ini, kumpulan data yang masuk adalah kumpulan data tabular dalam format CSV, dengan satu kolom label biner dan dua kolom fitur, sebagai berikut. Dataset disediakan untuk pekerjaan SageMaker Clarify dengan parameter input `dataset` pemrosesan.

```
0,2,"They taste gross"
1,3,"Flavor needs work"
1,5,"Taste is awful"
0,1,"The worst"
...
```

Dalam contoh ini, model klasifikasi biner dilatih pada dataset sebelumnya. Model menerima data CSV, dan menghasilkan skor tunggal antara `0` dan`1`, sebagai berikut.

```
0.491656005382537
0.569582343101501
...
```

Model ini digunakan untuk membuat model SageMaker AI bernama “your\$1model”. Konfigurasi analisis berikut menunjukkan cara menjalankan analisis penjelasan berdasarkan token menggunakan model dan dataset. `text_config`Parameter mengaktifkan analisis penjelasan NLP. `granularity`Parameter menunjukkan bahwa analisis harus mengurai token. 

Dalam bahasa Inggris, setiap token adalah sebuah kata. Contoh berikut juga menunjukkan cara menyediakan instance “baseline” SHAP di tempat menggunakan rata-rata “Rating” 4. Token topeng khusus “[MASK]” digunakan untuk mengganti token (kata) di “Komentar”. Contoh ini juga menggunakan tipe instance titik akhir GPU untuk mempercepat inferensi.

```
{
    "dataset_type": "text/csv",
    "headers": ["Target","Rating","Comments"]
    "label": "Target",
    "methods": {
        "shap": {
            "text_config": {
                "granularity": "token",
                "language": "english"
            }
            "baseline": [[4,"[MASK]"]],
        }
    },
    "predictor": {
        "model_name": "your_nlp_model",
        "initial_instance_count": 1,
        "instance_type": "ml.g4dn.xlarge"
    }
}
```

### Konfigurasi analisis untuk penjelasan visi komputer
<a name="clarify-analysis-configure-computer-vision-example"></a>

Contoh berikut menunjukkan analisis konfigurasi fitur komputasi file yang penting untuk visi komputer. Dalam contoh ini, dataset input terdiri dari gambar JPEG. Dataset disediakan untuk pekerjaan SageMaker Clarify dengan parameter input `dataset` pemrosesan. Contoh menunjukkan cara mengkonfigurasi analisis penjelasan menggunakan model klasifikasi SageMaker gambar. Dalam contoh, model bernama`your_cv_ic_model`, telah dilatih untuk mengklasifikasikan hewan pada gambar JPEG input.

```
{
    "dataset_type": "application/x-image",
    "methods": {
        "shap": {
             "image_config": {
                "model_type": "IMAGE_CLASSIFICATION",
                 "num_segments": 20,
                "segment_compactness": 10
             }
        },
        "report": {
            "name": "report"
        }
    },
    "predictor": {
        "model_name": "your_cv_ic_model",
        "initial_instance_count": 1,
        "instance_type": "ml.p2.xlarge",
        "label_headers": ["bird","cat","dog"]
    }
}
```

Untuk informasi lebih lanjut tentang klasifikasi gambar, lihat[Klasifikasi Gambar - MXNet](image-classification.md).

Dalam contoh ini, [model deteksi objek SageMaker AI](https://docs.aws.amazon.com/sagemaker/latest/dg/object-detection.html), `your_cv_od_model` dilatih pada gambar JPEG yang sama untuk mengidentifikasi hewan pada mereka. Contoh berikut menunjukkan cara mengkonfigurasi analisis penjelasan untuk model deteksi objek.

```
{
    "dataset_type": "application/x-image",
    "probability_threshold": 0.5,
    "methods": {
        "shap": {
             "image_config": {
                "model_type": "OBJECT_DETECTION",
                 "max_objects": 3,
                "context": 1.0,
                "iou_threshold": 0.5,
                 "num_segments": 20,
                "segment_compactness": 10
             }
        },
        "report": {
            "name": "report"
        }
    },
    "predictor": {
        "model_name": "your_cv_od_model",
        "initial_instance_count": 1,
        "instance_type": "ml.p2.xlarge",
        "label_headers": ["bird","cat","dog"]
    }
}
```

### Konfigurasi analisis untuk penjelasan model perkiraan deret waktu
<a name="clarify-analysis-configure-time-series-example"></a>

Contoh berikut menunjukkan file konfigurasi analisis untuk pentingnya fitur komputasi untuk deret waktu (TS). Dalam contoh ini, kumpulan data yang masuk adalah kumpulan data deret waktu dalam format JSON dengan serangkaian fitur kovariat dinamis dan statis. Dataset disediakan untuk pekerjaan SageMaker Clarify oleh parameter input pemrosesan dataset. `dataset_uri`

```
[
    {
        "item_id": "item1",
        "timestamp": "2019-09-11",
        "target_value": 47650.3,
        "dynamic_feature_1": 0.4576,
        "dynamic_feature_2": 0.2164,
        "dynamic_feature_3": 0.1906,
        "static_feature_1": 3,
        "static_feature_2": 4
    },
    {
        "item_id": "item1",
        "timestamp": "2019-09-12",
        "target_value": 47380.3,
        "dynamic_feature_1": 0.4839,
        "dynamic_feature_2": 0.2274,
        "dynamic_feature_3": 0.1889,
        "static_feature_1": 3,
        "static_feature_2": 4
    },
    {
        "item_id": "item2",
        "timestamp": "2020-04-23",
        "target_value": 35601.4,
        "dynamic_feature_1": 0.5264,
        "dynamic_feature_2": 0.3838,
        "dynamic_feature_3": 0.4604,
        "static_feature_1": 1,
        "static_feature_2": 2
    },
]
```

Bagian berikut menjelaskan cara menghitung atribusi fitur untuk model peramalan dengan algoritme nilai Shapley asimetris untuk kumpulan data JSON. 

#### Hitung penjelasan untuk model peramalan deret waktu
<a name="clarify-processing-job-configure-analysis-feature-attr"></a>

Contoh konfigurasi analisis berikut menampilkan opsi yang digunakan oleh pekerjaan untuk menghitung penjelasan untuk model peramalan deret waktu.

```
{
    'dataset_type': 'application/json',
    'dataset_uri': 'DATASET_URI',
    'methods': {
        'asymmetric_shapley_value': {
            'baseline': {
                "related_time_series": "zero",
                "static_covariates": {
                    "item1": [0, 0], "item2": [0, 0]
                },
                "target_time_series": "zero"
            },
            'direction': 'chronological',
            'granularity': 'fine_grained',
            'num_samples': 10
        },
        'report': {'name': 'report', 'title': 'Analysis Report'}
    },
    'predictor': {
        'accept_type': 'application/json',
        'content_template': '{"instances": $records}',
        'endpoint_name': 'ENDPOINT_NAME', 
        'content_type': 'application/json',              
        'record_template': '{
            "start": $start_time, 
            "target": $target_time_series, 
            "dynamic_feat": $related_time_series, 
            "cat": $static_covariates
        }',
        'time_series_predictor_config': {'forecast': 'predictions[*].mean[:2]'}
    },
    'time_series_data_config': {
        'dataset_format': 'timestamp_records',
        'item_id': '[].item_id',
        'related_time_series': ['[].dynamic_feature_1', '[].dynamic_feature_2', '[].dynamic_feature_3'],
        'static_covariates': ['[].static_feature_1', '[].static_feature_2'],
        'target_time_series': '[].target_value',
        'timestamp': '[].timestamp'
    }
}
```

##### Konfigurasi penjelasan deret waktu
<a name="clarify-processing-job-configure-analysis-feature-attr-tsconfig"></a>

Contoh sebelumnya digunakan `asymmetric_shapley_value` `methods` untuk mendefinisikan argumen penjelasan deret waktu seperti baseline, arah, granularitas, dan jumlah sampel. Nilai dasar ditetapkan untuk ketiga jenis data: deret waktu terkait, kovariat statis, dan deret waktu target. Bidang ini menginstruksikan prosesor SageMaker Clarify untuk menghitung atribusi fitur untuk satu item pada satu waktu.

##### Konfigurasi prediktor
<a name="clarify-processing-job-configure-analysis-feature-attr-predictconfig"></a>

Anda dapat sepenuhnya mengontrol struktur payload yang dikirimkan prosesor SageMaker Clarify menggunakan JMESPath sintaks. Dalam contoh sebelumnya, `predictor` konfigurasi menginstruksikan Clarify untuk menggabungkan catatan ke dalam`'{"instances": $records}'`, di mana setiap record didefinisikan dengan argumen yang diberikan dalam contoh. `record_template` Perhatikan bahwa`$start_time`,, `$target_time_series``$related_time_series`, dan `$static_covariates` merupakan token internal yang digunakan untuk memetakan nilai kumpulan data ke nilai permintaan titik akhir.

Demikian pula, atribut `forecast` di `time_series_predictor_config` digunakan untuk mengekstrak perkiraan model dari respons titik akhir. Misalnya, respons batch titik akhir Anda mungkin sebagai berikut:

```
{
    "predictions": [
        {"mean": [13.4, 3.6, 1.0]}, 
        {"mean": [23.0, 4.7, 3.0]}, 
        {"mean": [3.4, 5.6, 2.0]}
    ]
}
```

Misalkan Anda menentukan konfigurasi prediktor deret waktu berikut:

```
'time_series_predictor_config': {'forecast': 'predictions[*].mean[:2]'}
```

Nilai perkiraan diuraikan sebagai berikut:

```
[
    [13.4, 3.6],
    [23.0, 4.7],
    [3.4, 5.6]
]
```

##### Konfigurasi data
<a name="clarify-processing-job-configure-analysis-feature-attr-dataconfig"></a>

Gunakan `time_series_data_config` atribut untuk menginstruksikan prosesor SageMaker Clarify agar mengurai data dengan benar dari data yang diteruskan sebagai URI S3. `dataset_uri` 

# Panduan Kompatibilitas Format Data
<a name="clarify-processing-job-data-format"></a>

Panduan ini menjelaskan tipe format data yang kompatibel dengan pekerjaan pemrosesan SageMaker Clarify. Jenis format data yang didukung mencakup ekstensi file, struktur data, dan persyaratan atau batasan khusus untuk kumpulan data tabular, gambar, dan deret waktu. Panduan ini juga menunjukkan cara memeriksa apakah kumpulan data Anda sesuai dengan persyaratan ini.

Pada tingkat tinggi, pekerjaan pemrosesan SageMaker Clarify mengikuti model input-proses-output untuk menghitung metrik bias dan atribusi fitur. Lihat contoh berikut untuk detailnya.

Masukan untuk pekerjaan pemrosesan SageMaker Clarify terdiri dari yang berikut:
+ Dataset yang akan dianalisis.
+ Konfigurasi analisis. Untuk informasi selengkapnya tentang cara mengonfigurasi analisis, lihat[File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).

Selama tahap pemrosesan, SageMaker Clarify menghitung metrik bias dan atribusi fitur. Pekerjaan pemrosesan Clarify menyelesaikan langkah-langkah berikut di backend: SageMaker 
+ Pekerjaan pemrosesan SageMaker Clarify mem-parsing konfigurasi analisis Anda dan memuat **kumpulan data** Anda.
+ Untuk menghitung metrik bias pasca-pelatihan dan atribusi fitur, pekerjaan memerlukan prediksi model dari model Anda. **Pekerjaan pemrosesan SageMaker Clarify membuat serial data Anda dan mengirimkannya sebagai **permintaan** ke model Anda yang diterapkan pada titik akhir inferensi real-time SageMaker AI.** Setelah itu, pekerjaan pemrosesan SageMaker Clarify mengekstrak prediksi dari **respons**.
+ Pekerjaan pemrosesan SageMaker Clarify melakukan analisis bias dan penjelasan, dan kemudian menghasilkan hasilnya.

Untuk informasi selengkapnya, lihat [Bagaimana SageMaker Memperjelas Pekerjaan Pemrosesan Pekerjaan](clarify-configure-processing-jobs.md#clarify-processing-job-configure-how-it-works).

Parameter yang Anda gunakan untuk menentukan format data bergantung pada di mana data digunakan dalam aliran pemrosesan sebagai berikut:
+ Untuk **dataset input**, gunakan `dataset_type` parameter untuk menentukan format atau tipe MIME.
+ Untuk **permintaan** ke titik akhir, gunakan `content_type` parameter untuk menentukan format.
+ Untuk **respons** dari titik akhir, gunakan `accept_type` parameter untuk menentukan format.

Dataset input, permintaan, dan respons ke dan dari titik akhir tidak memerlukan format yang sama. Misalnya, Anda dapat menggunakan kumpulan data Parket dengan muatan **permintaan** CSV dan muatan **respons** JSON Lines dengan ketentuan berikut.
+ Analisis Anda dikonfigurasi dengan benar.
+ Model Anda mendukung format permintaan dan respons.

**catatan**  
Jika `accept_type` disediakan `content_type` atau tidak, maka kontainer SageMaker Clarify menyimpulkan `content_type` dan`accept_type`.

**Topics**
+ [Data tabular](clarify-processing-job-data-format-tabular.md)
+ [Persyaratan data gambar](clarify-processing-job-data-format-image.md)
+ [Data deret waktu](clarify-processing-job-data-format-time-series.md)

# Data tabular
<a name="clarify-processing-job-data-format-tabular"></a>

Data tabular mengacu pada data yang dapat dimuat ke dalam bingkai data dua dimensi. Dalam bingkai, setiap baris mewakili catatan, dan setiap catatan memiliki satu atau lebih kolom. Nilai dalam setiap sel bingkai data dapat berupa tipe data numerik, kategoris, atau teks.

## Prasyarat kumpulan data tabel
<a name="clarify-processing-job-data-format-tabular-prereq"></a>

Sebelum analisis, dataset Anda seharusnya memiliki langkah-langkah pra-pemrosesan yang diperlukan yang sudah diterapkan. Ini termasuk pembersihan data atau rekayasa fitur.

Anda dapat menyediakan satu atau beberapa kumpulan data. Jika Anda menyediakan beberapa kumpulan data, gunakan yang berikut ini untuk mengidentifikasinya ke pekerjaan pemrosesan SageMaker Clarify.
+ Gunakan konfigurasi [ProcessingInput](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProcessingInput.html)bernama `dataset` atau analisis `dataset_uri` untuk menentukan kumpulan data utama. Untuk informasi selengkapnya`dataset_uri`, lihat daftar parameter di[File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).
+ Gunakan `baseline` parameter yang disediakan dalam file konfigurasi analisis. Dataset dasar diperlukan untuk analisis SHAP. Untuk informasi selengkapnya tentang file konfigurasi analisis, termasuk contoh, lihat[File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).

Tabel berikut mencantumkan format data yang didukung, ekstensi file, dan tipe MIME.


| Format data | Ekstensi file | Tipe MIME | 
| --- | --- | --- | 
|  CSV  |  csv  |  `text/csv`  | 
|  Garis JSON  |  jsonl  |  `application/jsonlines`  | 
|  JSON  |  json  |  `application/json`  | 
|  Parquet  |  parquet  |  “aplikasi/x-parket”  | 

Bagian berikut menunjukkan contoh kumpulan data tabular dalam format CSV, JSON Lines, dan Apache Parquet.

### Prasyarat kumpulan data tabel dalam format CSV
<a name="clarify-processing-job-data-format-tabular-prereq-csv"></a>

Pekerjaan pemrosesan SageMaker Clarify dirancang untuk memuat file data CSV dalam dialek [csv.excel](https://docs.python.org/3/library/csv.html#csv.excel). Namun, ini cukup fleksibel untuk mendukung terminator baris lainnya, termasuk `\n` dan`\r`.

Untuk kompatibilitas, semua file data CSV yang disediakan untuk pekerjaan pemrosesan SageMaker Clarify harus dikodekan dalam UTF-8.

Jika dataset Anda tidak berisi baris header, lakukan hal berikut:
+ Atur label konfigurasi analisis ke indeks`0`. Ini berarti bahwa kolom pertama adalah label kebenaran dasar.
+ Jika parameter `headers` diatur, atur `label` ke header kolom label untuk menunjukkan lokasi kolom label. Semua kolom lainnya ditetapkan sebagai fitur.

  Berikut ini adalah contoh dari dataset yang tidak berisi baris header.

  ```
  1,5,2.8,2.538,This is a good product
  0,1,0.79,0.475,Bad shopping experience
  ...
  ```

Jika data Anda berisi baris header, atur parameter `label` ke indeks`0`. Untuk menunjukkan lokasi kolom label, gunakan header label kebenaran dasar`Label`. Semua kolom lainnya ditetapkan sebagai fitur.

Berikut ini adalah contoh dari dataset yang berisi baris header.

```
Label,Rating,A12,A13,Comments
1,5,2.8,2.538,This is a good product
0,1,0.79,0.475,Bad shopping experience
...
```

### Prasyarat kumpulan data tabel dalam format JSON
<a name="clarify-processing-job-data-format-tabular-prereq-json"></a>

JSON adalah format fleksibel untuk mewakili data terstruktur yang berisi tingkat kompleksitas apa pun. Dukungan SageMaker Clarify untuk JSON tidak terbatas pada format tertentu dan dengan demikian memungkinkan format data yang lebih fleksibel dibandingkan dengan kumpulan data dalam format CSV atau JSON Lines. Panduan ini menunjukkan cara mengatur konfigurasi analisis untuk data tabular dalam format JSON. 

**catatan**  
Untuk memastikan kompatibilitas, semua file data JSON yang disediakan untuk pekerjaan pemrosesan SageMaker Clarify harus dikodekan dalam UTF-8.

Berikut ini adalah contoh data input dengan catatan yang berisi kunci tingkat atas, daftar fitur, dan label.

```
[
    {"features":[1,5,2.8,2.538,"This is a good product"],"label":1},
    {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0},
    ...
]
```

Contoh analisis konfigurasi untuk contoh dataset input sebelumnya harus menetapkan parameter berikut:
+ `label`Parameter harus menggunakan [JMESPath](https://jmespath.org/)ekspresi `[*].label` untuk mengekstrak label kebenaran dasar untuk setiap catatan dalam kumpulan data. JMESPath Ekspresi harus menghasilkan daftar label di mana label ke-i sesuai dengan catatan ke-i.
+ `features`Parameter harus menggunakan JMESPath ekspresi `[*].features` untuk mengekstrak array fitur untuk setiap record dalam dataset. JMESPath Ekspresi harus menghasilkan array 2D atau matriks di mana baris ke-i berisi nilai fitur yang sesuai dengan catatan ke-i.

  Berikut ini adalah contoh data input dengan catatan yang berisi kunci tingkat atas dan kunci bersarang yang berisi daftar fitur dan label untuk setiap rekaman.

```
{
    "data": [
        {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}},
        {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
    ]
}
```

Contoh analisis konfigurasi untuk contoh dataset input sebelumnya harus menetapkan parameter berikut:
+ `label`Parameter menggunakan [JMESPath](https://jmespath.org/)ekspresi `data[*].label` untuk mengekstrak label kebenaran dasar untuk setiap catatan dalam kumpulan data. JMESPath Ekspresi harus menghasilkan daftar label di mana label i th adalah untuk catatan ke-i.
+ `features`Parameter menggunakan JMESPath ekspresi `data[*].features` untuk mengekstrak array fitur, untuk setiap catatan dalam dataset. JMESPath Ekspresi harus menghasilkan array 2D atau matriks di mana baris ke-i berisi nilai fitur untuk catatan ke-i.

### Prasyarat kumpulan data tabel dalam format JSON Lines
<a name="clarify-processing-job-data-format-tabular-prereq-jsonlines"></a>

JSON Lines adalah format teks untuk mewakili data terstruktur di mana setiap baris adalah objek JSON yang valid. Saat ini pekerjaan pemrosesan SageMaker Clarify hanya mendukung SageMaker AI Dense Format JSON Lines. Agar sesuai dengan format yang diperlukan, semua fitur catatan harus terdaftar dalam satu array JSON. Untuk informasi lebih lanjut tentang JSON Lines, lihat[Format permintaan JSONLINES](cdf-inference.md#cm-jsonlines).

**catatan**  
Semua file data JSON Lines yang disediakan untuk pekerjaan pemrosesan SageMaker Clarify harus dikodekan dalam UTF-8 untuk memastikan kompatibilitas.

Berikut ini adalah contoh cara mengatur konfigurasi analisis untuk catatan yang berisi **kunci tingkat atas** dan **daftar** elemen. 

```
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}
{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}
...
```

Analisis konfigurasi untuk contoh kumpulan data sebelumnya harus menetapkan parameter sebagai berikut:
+ Untuk menunjukkan lokasi label kebenaran dasar, parameter `label` harus diatur ke JMESPath ekspresi`label`.
+ Untuk menunjukkan lokasi array fitur, parameter `features` harus diatur ke JMESPath ekspresi`features`.

Berikut ini adalah contoh cara mengatur konfigurasi analisis untuk catatan yang berisi **kunci tingkat atas dan kunci** **bersarang** yang berisi **daftar elemen**. 

```
{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}
{"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
...
```

Analisis konfigurasi untuk contoh kumpulan data sebelumnya harus menetapkan parameter sebagai berikut:
+ Parameter `label` harus diatur ke JMESPath ekspresi `data.label` untuk menunjukkan lokasi label kebenaran dasar.
+ Parameter `features` harus diatur `data.features` ke JMESPath ekspresi untuk menunjukkan lokasi array fitur.

### Prasyarat kumpulan data tabel dalam format Parket
<a name="clarify-processing-job-data-format-tabular-prereq-parquet"></a>

[Parket](https://parquet.apache.org/) adalah format data biner berorientasi kolom. Saat ini, SageMaker pekerjaan pemrosesan Clarify mendukung pemuatan file data Parket hanya ketika jumlah instance pemrosesan. `1`

Karena pekerjaan pemrosesan SageMaker Clarify tidak mendukung permintaan titik akhir atau respons titik akhir dalam format Parket, Anda harus menentukan format data permintaan titik akhir dengan menyetel parameter konfigurasi analisis `content_type` ke format yang didukung. Untuk informasi selengkapnya, lihat `content_type` di [File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).

Data Parket harus memiliki nama kolom yang diformat sebagai string. Gunakan `label` parameter konfigurasi analisis untuk mengatur nama kolom label untuk menunjukkan lokasi label kebenaran dasar. Semua kolom lainnya ditetapkan sebagai fitur.

# Permintaan titik akhir untuk data tabular
<a name="clarify-processing-job-data-format-tabular-request"></a>

Untuk mendapatkan prediksi model untuk analisis bias pasca-pelatihan dan analisis kepentingan fitur, SageMaker Clarify pekerjaan pemrosesan membuat serial data tabular menjadi byte dan mengirimkannya ke titik akhir inferensi sebagai muatan permintaan. Data tabular ini bersumber dari dataset input, atau dihasilkan. Jika itu adalah data sintetis, itu dihasilkan oleh penjelasan untuk analisis SHAP atau analisis PDP.

Format data payload permintaan harus ditentukan oleh `content_type` parameter konfigurasi analisis. Jika parameter tidak disediakan, pekerjaan pemrosesan SageMaker Clarify akan menggunakan nilai `dataset_type` parameter sebagai jenis konten. Untuk informasi lebih lanjut tentang `content_type` atau`dataset_type`, lihat[File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).

Bagian berikut menunjukkan contoh permintaan titik akhir dalam format CSV dan JSON Lines.

## Permintaan titik akhir dalam format CSV
<a name="clarify-processing-job-data-format-tabular-request-csv"></a>

Pekerjaan pemrosesan SageMaker Clarify dapat membuat serial data ke format CSV (tipe MIME:). `text/csv` Tabel berikut menunjukkan contoh muatan permintaan serial.


| Muatan permintaan titik akhir (representasi string) | Komentar | 
| --- | --- | 
|  '1,2,3,4'  |  Rekaman tunggal (empat fitur numerik).  | 
|  '1,2,3,4\$1n5,6,7,8'  |  Dua catatan, dipisahkan oleh jeda baris '\$1n'.  | 
|  “Ini adalah produk yang bagus”, 5'  |  Rekaman tunggal (fitur teks dan fitur numerik).  | 
|  '"Ini adalah produk yang bagus” ,5\$1n“Pengalaman belanja yang buruk”, 1 '  |  Dua catatan.  | 

## Permintaan titik akhir dalam format JSON Lines
<a name="clarify-processing-job-data-format-tabular-request-jsonlines"></a>

Pekerjaan pemrosesan SageMaker Clarify dapat membuat serial data ke format padat SageMaker AI JSON Lines (tipe MIME:). `application/jsonlines` Untuk informasi lebih lanjut tentang JSON Lines, lihat[Format permintaan JSONLINES](cdf-inference.md#cm-jsonlines).

Untuk mengubah data tabular menjadi data JSON, berikan string template ke parameter konfigurasi `content_template` analisis. Untuk informasi lebih lanjut tentang `content_template`, lihat [File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md). Tabel berikut menunjukkan contoh muatan permintaan JSON Lines serial.


| Muatan permintaan titik akhir (representasi string) | Komentar | 
| --- | --- | 
|  '\$1"data”: \$1"features”: [1,2,3,4]\$1\$1'  |  Rekor tunggal. Dalam hal ini, template terlihat seperti `'{"data":{"features":$features}}' ` dan `$features` digantikan oleh daftar fitur`[1,2,3,4]`.  | 
|  '\$1"data”: \$1"features”: [1,2,3,4]\$1\$1\$1n\$1"data”: \$1"features”: [5,6,7,8]\$1\$1'  |  Dua catatan.  | 
|  '\$1"features”: ["Ini adalah produk yang bagus” ,5]\$1'  |  Rekor tunggal. Dalam hal ini, template terlihat seperti `'{"features":$features}'` dan \$1features digantikan oleh daftar fitur`["This is a good product",5]`.  | 
|  '\$1"features”: ["Ini adalah produk yang bagus” ,5]\$1\$1n\$1"features”: ["Pengalaman belanja yang buruk” ,1]\$1'  |  Dua catatan.  | 

## Permintaan titik akhir dalam format JSON
<a name="clarify-processing-job-data-format-tabular-request-json"></a>

Pekerjaan pemrosesan SageMaker Clarify dapat membuat serial data ke struktur JSON arbitrer (tipe MIME:). `application/json` Untuk melakukan ini, Anda harus memberikan string template ke `content_template` parameter konfigurasi analisis. Ini digunakan oleh pekerjaan pemrosesan SageMaker Clarify untuk membangun struktur JSON luar. Anda juga harus menyediakan string template untuk`record_template`, yang digunakan untuk membangun struktur JSON untuk setiap record. Untuk informasi selengkapnya tentang `content_template` dan `record_template`, lihat [File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md). 

**catatan**  
Karena `content_template` dan `record_template` merupakan parameter string, setiap karakter kutipan ganda (`"`) yang merupakan bagian dari struktur serial JSON harus dicatat sebagai karakter yang lolos dalam konfigurasi Anda. Misalnya, jika Anda ingin menghindari kutipan ganda di Python, Anda bisa memasukkan yang berikut untuk. `content_template`  

```
"{\"data\":{\"features\":$record}}}"
```

Tabel berikut menunjukkan contoh muatan permintaan JSON serial dan `record_template` parameter yang sesuai `content_template` dan yang diperlukan untuk membangunnya.


| Muatan permintaan titik akhir (representasi string) | Komentar | content\$1template | record\$1template | 
| --- | --- | --- | --- | 
|  '\$1"data”: \$1"features”: [1,2,3,4]\$1\$1'  |  Rekaman tunggal pada satu waktu.  |  '\$1"data”: \$1"features” :\$1record\$1\$1\$1'  |  “\$1 fitur”  | 
|  '\$1"instance”: [[0, 1], [3, 4]], “nama-fitur”: ["A”, “B"]\$1'  |  Multi-rekaman dengan nama fitur.  |  '\$1"instance” :\$1records, “feature-names” :\$1feature\$1names\$1'  |  “\$1 fitur”  | 
|  '[\$1"A”: 0, “B”: 1\$1, \$1"A”: 3, “B”: 4\$1]'  |  Multi-record dan pasangan kunci-nilai.  |  “\$1 catatan”  |  “\$1 features\$1kvp”  | 
|  '\$1"A”: 0, “B”: 1\$1'  |  Rekaman tunggal pada satu waktu dan pasangan kunci-nilai.  |  “\$1 rekor”  |  “\$1 features\$1kvp”  | 
|  '\$1"A”: 0, “bersarang”: \$1"B”: 1\$1\$1'  |  Atau, gunakan record\$1template verbose sepenuhnya untuk struktur arbitrer.  |  “\$1 rekor”  |  '\$1"A”: “\$1 \$1A\$1”, “bersarang”: \$1"B”: “\$1 \$1B\$1"\$1\$1'  | 

# Respon titik akhir untuk data tabular
<a name="clarify-processing-job-data-format-tabular-response"></a>

Setelah pekerjaan pemrosesan SageMaker Clarify menerima respons pemanggilan titik akhir inferensi, ia mendeserialisasi muatan respons dan mengekstrak prediksi darinya. Gunakan `accept_type` parameter konfigurasi analisis untuk menentukan format data dari muatan respons. Jika tidak `accept_type` disediakan, pekerjaan pemrosesan SageMaker Clarify akan menggunakan nilai parameter content\$1type sebagai format keluaran model. Untuk informasi selengkapnya tentang `accept_type`, lihat [File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).

Prediksi dapat terdiri dari label yang diprediksi untuk analisis bias, atau nilai probabilitas (skor) untuk analisis kepentingan fitur. Dalam konfigurasi `predictor` analisis, tiga parameter berikut mengekstrak prediksi.
+ Parameter `probability` digunakan untuk menemukan nilai probabilitas (skor) dalam respons titik akhir.
+ Parameter `label` digunakan untuk menemukan label yang diprediksi dalam respons titik akhir.
+ (Opsional) Parameter `label_headers` menyediakan label yang diprediksi untuk model multiclass.

Pedoman berikut berkaitan dengan respons titik akhir dalam format CSV, JSON Lines, dan JSON.

## Respons Endpoint dalam format CSV
<a name="clarify-processing-job-data-format-tabular-reponse-csv"></a>

Jika payload respons dalam format CSV (tipe MIME:`text/csv`), tugas pemrosesan SageMaker Clarify melakukan deserialisasi setiap baris. Kemudian mengekstrak prediksi dari data deserialisasi menggunakan indeks kolom yang disediakan dalam konfigurasi analisis. Baris dalam muatan respons harus sesuai dengan catatan dalam payload permintaan. 

Tabel berikut memberikan contoh data respons dalam format yang berbeda dan untuk jenis masalah yang berbeda. Data Anda dapat bervariasi dari contoh-contoh ini, selama prediksi dapat diekstraksi sesuai dengan konfigurasi analisis.

Bagian berikut menunjukkan contoh respons titik akhir dalam format CSV.

### Respons titik akhir dalam format CSV dan hanya berisi probabilitas
<a name="clarify-processing-job-data-format-tabular-reponse-csv-prob"></a>

Tabel berikut adalah contoh respons titik akhir untuk masalah regresi dan klasifikasi biner.


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Rekor tunggal.  |  '0,6'  | 
|  Dua catatan (menghasilkan satu baris, dibagi dengan koma).  |  '0,6,0,3'  | 
|  Dua catatan (menghasilkan dua baris).  |  '0,6\$1n0,3'  | 

Untuk contoh sebelumnya, titik akhir menghasilkan nilai probabilitas tunggal (skor) dari label yang diprediksi. Untuk mengekstrak probabilitas menggunakan indeks dan menggunakannya untuk analisis kepentingan fitur, atur parameter konfigurasi analisis `probability` ke indeks kolom. `0` Probabilitas ini juga dapat digunakan untuk analisis bias jika dikonversi ke nilai biner dengan menggunakan parameter. `probability_threshold` Untuk informasi selengkapnya tentang `probability_threshold`, lihat [File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).

Tabel berikut adalah contoh respon endpoint untuk masalah multiclass.


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Rekaman tunggal model multiclass (tiga kelas).  |  '0.1,0.6,0.3'  | 
|  Dua catatan model multiclass (tiga kelas).  |  '0.1,0.6,0.3\$1n0.2,0.5,0.3'  | 

Untuk contoh sebelumnya, titik akhir mengeluarkan daftar probabilitas (skor). Jika tidak ada indeks yang disediakan, semua nilai diekstraksi dan digunakan untuk analisis kepentingan fitur. Jika parameter konfigurasi analisis `label_headers` disediakan. Kemudian pekerjaan pemrosesan SageMaker Clarify dapat memilih tajuk label probabilitas maksimal sebagai label yang diprediksi, yang dapat digunakan untuk analisis bias. Untuk informasi selengkapnya tentang `label_headers`, lihat [File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).

### Respons titik akhir dalam format CSV dan hanya berisi label yang diprediksi
<a name="clarify-processing-job-data-format-tabular-reponse-csv-pred"></a>

Tabel berikut adalah contoh respons titik akhir untuk masalah regresi dan klasifikasi biner.


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Rekaman tunggal  |  '1'  | 
|  Dua catatan (hasil dalam satu baris, dibagi dengan koma)  |  '1,0'  | 
|  Dua catatan (menghasilkan dua baris)  |  '1\$1n0'  | 

Untuk contoh sebelumnya, titik akhir mengeluarkan label yang diprediksi, bukan probabilitas. Atur `label` parameter `predictor` konfigurasi ke indeks kolom `0` sehingga label yang diprediksi dapat diekstraksi menggunakan indeks dan digunakan untuk analisis bias.

### Respons titik akhir dalam format CSV dan berisi label dan probabilitas yang diprediksi
<a name="clarify-processing-job-data-format-tabular-reponse-csv-pred-prob"></a>

Tabel berikut adalah contoh respons titik akhir untuk masalah regresi dan klasifikasi biner.


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Rekaman tunggal  |  '1,0.6'  | 
|  Dua catatan  |  '1,0.6\$1n0,0.3'  | 

Untuk contoh sebelumnya, titik akhir mengeluarkan label yang diprediksi diikuti oleh probabilitasnya. Atur `label` parameter `predictor` konfigurasi ke indeks kolom`0`, dan atur `probability` ke indeks kolom `1` untuk mengekstrak kedua nilai parameter.

### Respons titik akhir dalam format CSV dan berisi label dan probabilitas yang diprediksi (multiclass)
<a name="clarify-processing-job-data-format-tabular-reponse-csv-preds-probs"></a>

Model multiclass yang dilatih oleh Amazon SageMaker Autopilot dapat dikonfigurasi untuk menampilkan representasi string dari daftar label dan probabilitas yang diprediksi. Contoh tabel berikut menunjukkan contoh respon endpoint dari model yang dikonfigurasi untuk output`predicted_label`,, `probability``labels`, dan`probabilities`.


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Rekaman tunggal  |  '"dog” ,0.6, "[\$1 'cat\$1 ',\$1 'dog\$1',\$1 'fish\$1 ']”, "[0.1, 0.6, 0.3]"'  | 
|  Dua catatan  |  '"dog” ,0.6, "[\$1 'cat\$1 ',\$1 'dog\$1',\$1 'fish\$1 ']”, "[0.1, 0.6, 0.3]”\$1n“" kucing” ,0.7, [\$1 'cat\$1',\$1 'dog\$1 ',\$1 'ikan\$1']”, "[0.7, 0.2, 0.1]" '  | 

Untuk contoh sebelumnya, pekerjaan pemrosesan SageMaker Clarify dapat dikonfigurasi dengan cara berikut untuk mengekstrak prediksi.

Untuk analisis bias, contoh sebelumnya dapat dikonfigurasi sebagai salah satu dari berikut ini.
+ Atur `label` parameter `predictor` konfigurasi `0` untuk mengekstrak label yang diprediksi.
+ Atur parameter `2` untuk mengekstrak label yang diprediksi, dan atur `probability` `3` untuk mengekstrak probabilitas yang sesuai. Pekerjaan pemrosesan SageMaker Clarify dapat secara otomatis menentukan label yang diprediksi dengan mengidentifikasi label dengan nilai probabilitas tertinggi. Mengacu pada contoh sebelumnya dari catatan tunggal, model memprediksi tiga label:`cat`,, dan `dog``fish`, dengan probabilitas yang sesuai dari`0.1`,, `0.6` dan. `0.3` Berdasarkan probabilitas ini, label yang diprediksi adalah`dog`, karena memiliki nilai probabilitas tertinggi. `0.6`
+ Setel `probability` `3` untuk mengekstrak probabilitas. Jika `label_headers` disediakan, maka pekerjaan pemrosesan SageMaker Clarify dapat secara otomatis menentukan label yang diprediksi dengan mengidentifikasi header label dengan nilai probabilitas tertinggi.

Untuk analisis kepentingan fitur, contoh sebelumnya dapat dikonfigurasi sebagai berikut.
+ Atur `probability` untuk `3` mengekstrak probabilitas semua label yang diprediksi. Kemudian, atribusi fitur akan dihitung untuk semua label. Jika pelanggan tidak menentukan`label_headers`, maka label yang diprediksi akan digunakan sebagai header label dalam laporan analisis.

## Respons Endpoint dalam format JSON Lines
<a name="clarify-processing-job-data-format-tabular-reponse-jsonlines"></a>

Jika payload respons dalam format JSON Lines (tipe MIME:`application/jsonlines`), tugas pemrosesan SageMaker Clarify mendeserialisasi setiap baris sebagai JSON. Kemudian mengekstrak prediksi dari data deserialisasi menggunakan JMESPath ekspresi yang disediakan dalam konfigurasi analisis. Baris dalam muatan respons harus sesuai dengan catatan dalam payload permintaan. Tabel berikut menunjukkan contoh data respons dalam format yang berbeda. Data Anda dapat bervariasi dari contoh-contoh ini, selama prediksi dapat diekstraksi sesuai dengan konfigurasi analisis.

Bagian berikut menunjukkan contoh respons titik akhir dalam format JSON Lines.

### Respons titik akhir dalam format JSON Lines dan hanya berisi probabilitas
<a name="clarify-processing-job-data-format-tabular-reponse-jsonlines-prob"></a>

Tabel berikut adalah contoh respons titik akhir yang hanya menampilkan nilai probabilitas (skor).


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Rekaman tunggal  |  '\$1"skor” :0.6\$1'  | 
|  Dua catatan  |  '\$1"score” :0.6\$1\$1n\$1"skor” :0.3\$1'  | 

Untuk contoh sebelumnya, atur parameter konfigurasi analisis `probability` ke JMESPath ekspresi “skor” untuk mengekstrak nilainya.

### Respons titik akhir dalam format JSON Lines dan hanya berisi label yang diprediksi
<a name="clarify-processing-job-data-format-tabular-reponse-jsonlines-pred"></a>

Tabel berikut adalah contoh respons titik akhir yang hanya menampilkan label yang diprediksi. 


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Rekaman tunggal  |  '\$1"prediksi” :1\$1'  | 
|  Dua catatan  |  '\$1"prediksi” :1\$1\$1n\$1"prediksi” :0\$1'  | 

Untuk contoh sebelumnya, atur `label` parameter konfigurasi prediktor ke JMESPath ekspresi`prediction`. Kemudian, pekerjaan pemrosesan SageMaker Clarify dapat mengekstrak label yang diprediksi untuk analisis bias. Untuk informasi selengkapnya, lihat [File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).

### Respons titik akhir dalam format JSON Lines dan berisi label dan probabilitas yang diprediksi
<a name="clarify-processing-job-data-format-tabular-reponse-jsonlines-pred-prob"></a>

Tabel berikut adalah contoh respons titik akhir yang menampilkan label yang diprediksi dan skornya.


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Rekaman tunggal  |  '\$1"prediksi” :1, "skor” :0.6\$1'  | 
|  Dua catatan  |  '\$1"prediksi” :1, "skor” :0.6\$1\$1n\$1"prediksi” :0, "skor” :0.3\$1'  | 

Untuk contoh sebelumnya, atur `label` parameter `predictor` konfigurasi ke JMESPath ekspresi “prediksi” untuk mengekstrak label yang diprediksi. Setel `probability` ke JMESPath ekspresi “skor” untuk mengekstrak probabilitas. Untuk informasi selengkapnya, lihat [File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).

### Respons titik akhir dalam format JSON Lines dan berisi label dan probabilitas yang diprediksi (multiclass)
<a name="clarify-processing-job-data-format-tabular-reponse-jsonlines-preds-probs"></a>

Tabel berikut adalah contoh respons titik akhir dari model multiclass yang menghasilkan yang berikut:
+ Daftar label yang diprediksi.
+  Probabilitas, dan label prediksi yang dipilih dan probabilitasnya.


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Rekaman tunggal  |  '\$1"predicted\$1label” :"dog”, "probabilitas” :0.6, "predicted\$1labels”: ["cat”, "dog”, "fish "], "probabilities”: [0.1,0.6,0.3]\$1'  | 
|  Dua catatan  |  '\$1"predicted\$1label” :"dog”, "probabilitas” :0.6, "predicted\$1labels”: ["cat”, "dog”, "fish "], "probabilities”: [0.1,0.6,0.3]\$1\$1n\$1"predicted\$1label” :"cat”, "probabilitas” :0.7, "predicted\$1labels”: ["cat”, "dog”, "ikan "], "probabilitas”: [0.7,0.2,0.1]\$1'  | 

 Untuk contoh sebelumnya, pekerjaan pemrosesan SageMaker Clarify dapat dikonfigurasi dengan beberapa cara untuk mengekstrak prediksi. 

Untuk analisis bias, contoh sebelumnya dapat dikonfigurasi sebagai **salah satu** dari berikut ini.
+ Atur `label` parameter `predictor` konfigurasi ke JMESPath ekspresi “predicted\$1label” untuk mengekstrak label yang diprediksi.
+ Setel parameter ke JMESPath ekspresi “predicted\$1labels” untuk mengekstrak label yang diprediksi. Atur `probability` ke JMESPath ekspresi “probabilitas” untuk mengekstrak probabilitas mereka. Pekerjaan SageMaker Clarify secara otomatis menentukan label yang diprediksi dengan mengidentifikasi label dengan nilai probabilitas tertinggi.
+ Atur `probability` ke JMESPath ekspresi “probabilitas” untuk mengekstrak probabilitas mereka. Jika `label_headers` disediakan, maka pekerjaan pemrosesan SageMaker Clarify dapat secara otomatis menentukan label yang diprediksi dengan mengidentifikasi label dengan nilai probabilitas tertinggi.

Untuk analisis kepentingan fitur, lakukan hal berikut.
+ Atur `probability` ke JMESPath ekspresi “probabilitas” untuk mengekstrak probabilitas mereka dari semua label yang diprediksi. Kemudian, atribusi fitur akan dihitung untuk semua label.

## Respons Endpoint dalam format JSON
<a name="clarify-processing-job-data-format-tabular-reponse-json"></a>

Jika payload respons dalam format JSON (tipe MIME:`application/json`), tugas pemrosesan SageMaker Clarify mendeserialisasi seluruh muatan sebagai JSON. Kemudian mengekstrak prediksi dari data deserialisasi menggunakan JMESPath ekspresi yang disediakan dalam konfigurasi analisis. Catatan dalam muatan respons harus sesuai dengan catatan dalam payload permintaan. 

Bagian berikut menunjukkan contoh respons titik akhir dalam format JSON. Bagian berisi tabel dengan contoh data respons dalam format yang berbeda dan untuk jenis masalah yang berbeda. Data Anda dapat bervariasi dari contoh-contoh ini, selama prediksi dapat diekstraksi sesuai dengan konfigurasi analisis.

### Respons titik akhir dalam format JSON dan hanya berisi probabilitas
<a name="clarify-processing-job-data-format-tabular-reponse-json-prob"></a>

Tabel berikut adalah contoh respons dari titik akhir yang hanya menampilkan nilai probabilitas (skor).


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Rekaman tunggal  |  '[0,6]'  | 
|  Dua catatan  |  '[0.6,0.3]'  | 

Untuk contoh sebelumnya, tidak ada jeda baris di payload respons. Sebagai gantinya, satu objek JSON berisi daftar skor, satu untuk setiap catatan dalam permintaan. Atur parameter konfigurasi analisis `probability` ke JMESPath ekspresi “[\$1]” untuk mengekstrak nilainya.

### Respons titik akhir dalam format JSON dan hanya berisi label yang diprediksi
<a name="clarify-processing-job-data-format-tabular-reponse-json-pred"></a>

Tabel berikut adalah contoh respons dari titik akhir yang hanya menampilkan label yang diprediksi.


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Rekaman tunggal  |  '\$1"predicted\$1labels”: [1]\$1'  | 
|  Dua catatan  |  '\$1"predicted\$1labels”: [1,0]\$1'  | 

Setel `label` parameter `predictor` konfigurasi ke JMESPath ekspresi “predicted\$1labels”, dan kemudian pekerjaan pemrosesan SageMaker Clarify dapat mengekstrak label yang diprediksi untuk analisis bias.

### Respons titik akhir adalah format JSON dan berisi label dan probabilitas yang diprediksi
<a name="clarify-processing-job-data-format-tabular-reponse-json-pred-prob"></a>

Tabel berikut adalah contoh respons dari titik akhir yang menampilkan label yang diprediksi dan skornya.


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Rekaman tunggal  |  '\$1"predictions”: [\$1"label” :1, "skor” :0.6\$1'  | 
|  Dua catatan  |  '\$1"predictions”: [\$1"label” :1, "score” :0.6\$1, \$1"label” :0, "score” :0.3\$1]\$1'  | 

Untuk contoh sebelumnya, atur `label` parameter `predictor` konfigurasi ke JMESPath ekspresi “predictions [\$1] .label” untuk mengekstrak label yang diprediksi. Setel `probability` ke JMESPath ekspresi “prediksi [\$1] .score” untuk mengekstrak probabilitas. 

### Respons titik akhir dalam format JSON dan berisi label dan probabilitas yang diprediksi (multiclass)
<a name="clarify-processing-job-data-format-tabular-reponse-json-preds-probs"></a>

Tabel berikut adalah contoh respons dari titik akhir yang dari model multiclass yang menghasilkan yang berikut:
+ Daftar label yang diprediksi.
+ Probabilitas, dan label prediksi yang dipilih dan probabilitasnya.


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Rekaman tunggal  |  '[\$1"predicted\$1label” :"dog”, "probabilitas” :0.6, "predicted\$1labels”: ["cat”, "dog”, "fish "], "probabilities”: [0.1,0.6,0.3]\$1]'  | 
|  Dua catatan  |  '[\$1"predicted\$1label” :"dog”, "probabilitas” :0.6, "predicted\$1labels”: ["cat”, "dog”, "fish "], "probabilities”: [0.1,0.6,0.3]\$1, \$1"predicted\$1label” :"cat”, "probabilitas” :0.7, "predicted\$1labels”: ["cat”, "dog”, "ikan "], "probabilitas”: [0.7,0.2,0.1]\$1]'  | 

Pekerjaan pemrosesan SageMaker Clarify dapat dikonfigurasi dengan beberapa cara untuk mengekstrak prediksi.

Untuk analisis bias, contoh sebelumnya dapat dikonfigurasi sebagai **salah satu** dari berikut ini.
+ Setel `label` parameter `predictor` konfigurasi ke JMESPath ekspresi “[\$1] .predicted\$1label” untuk mengekstrak label yang diprediksi.
+ Setel parameter ke JMESPath ekspresi “[\$1] .predicted\$1labels” untuk mengekstrak label yang diprediksi. Setel `probability` ke JMESPath ekspresi “[\$1] .probabilities” untuk mengekstrak probabilitasnya. Pekerjaan pemrosesan SageMaker Clarify dapat secara otomatis menentukan label yang diprediksi dengan mengidentifikasi label dengan nilai kedekatan tertinggi.
+ Setel `probability` ke JMESPath ekspresi “[\$1] .probabilities” untuk mengekstrak probabilitasnya. Jika `label_headers` disediakan, maka pekerjaan pemrosesan SageMaker Clarify dapat secara otomatis menentukan label yang diprediksi dengan mengidentifikasi label dengan nilai probabilitas tertinggi.

Untuk analisis kepentingan fitur, atur `probability` ke JMESPath ekspresi “[\$1] .probabilitas” untuk mengekstrak probabilitas mereka dari semua label yang diprediksi. Kemudian, atribusi fitur akan dihitung untuk semua label.

# Pra-periksa permintaan titik akhir dan respons untuk data tabular
<a name="clarify-processing-job-data-format-tabular-precheck"></a>

Kami menyarankan Anda menerapkan model Anda ke titik akhir inferensi real-time SageMaker AI, dan mengirim permintaan ke titik akhir. Periksa permintaan dan tanggapan secara manual untuk memastikan bahwa keduanya sesuai dengan persyaratan di [Permintaan titik akhir untuk data tabular](clarify-processing-job-data-format-tabular-request.md) bagian dan [Respon titik akhir untuk data tabular](clarify-processing-job-data-format-tabular-response.md) bagian. Jika wadah model Anda mendukung permintaan batch, Anda dapat memulai dengan satu permintaan rekaman, lalu mencoba dua atau lebih catatan.

Perintah berikut menunjukkan cara meminta respons menggunakan AWS CLI. AWS CLI Ini sudah diinstal sebelumnya di instans SageMaker Studio dan SageMaker Notebook. Untuk menginstal AWS CLI, ikuti [panduan instalasi](https://aws.amazon.com/cli/) ini.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name $ENDPOINT_NAME \
  --content-type $CONTENT_TYPE \
  --accept $ACCEPT_TYPE \
  --body $REQUEST_DATA \
  $CLI_BINARY_FORMAT \
  /dev/stderr 1>/dev/null
```

Parameter didefinisikan, sebagai berikut.
+ `$ENDPOINT NAME`— Nama titik akhir.
+ `$CONTENT_TYPE`— Jenis permintaan MIME (input wadah model).
+ `$ACCEPT_TYPE`— Jenis respons MIME (keluaran wadah model).
+ `$REQUEST_DATA`— String payload yang diminta.
+ `$CLI_BINARY_FORMAT`— Format parameter antarmuka baris perintah (CLI). Untuk AWS CLI v1, parameter ini harus tetap kosong. Untuk v2, parameter ini harus diatur ke`--cli-binary-format raw-in-base64-out`.

**catatan**  
AWS CLI [v2 melewati parameter biner sebagai string yang dikodekan base64 secara default.](https://docs.aws.amazon.com/cli/latest/userguide/cliv2-migration.html#cliv2-migration-binaryparam)

# AWS CLI contoh v1
<a name="clarify-processing-job-data-format-tabular-precheck-cli-v1-examples"></a>

Contoh di bagian sebelumnya adalah untuk AWS CLI v2. Contoh permintaan dan respons berikut ke dan dari titik akhir menggunakan AWS CLI v1.

## Permintaan dan respons titik akhir dalam format CSV
<a name="clarify-processing-job-data-format-tabular-precheck-csv"></a>

Dalam contoh kode berikut, permintaan terdiri dari satu catatan dan responsnya adalah nilai probabilitasnya.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-sagemaker-xgboost-model \
  --content-type text/csv \
  --accept text/csv \
  --body '1,2,3,4' \
  /dev/stderr 1>/dev/null
```

Dari contoh kode sebelumnya, output respons mengikuti.

```
0.6
```

Dalam contoh kode berikut, permintaan terdiri dari dua catatan, dan respons mencakup probabilitasnya, yang dipisahkan oleh koma.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-sagemaker-xgboost-model \
  --content-type text/csv \
  --accept text/csv \
  --body $'1,2,3,4\n5,6,7,8' \
  /dev/stderr 1>/dev/null
```

Dari contoh kode sebelumnya, `$'content'` ekspresi dalam `--body` memberitahu perintah untuk menafsirkan `'\n'` konten sebagai jeda baris. Output respons berikut.

```
0.6,0.3
```

Dalam contoh kode berikut, permintaan terdiri dari dua catatan, respons mencakup probabilitasnya, dipisahkan dengan jeda baris.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-csv-1 \
  --content-type text/csv \
  --accept text/csv \
  --body $'1,2,3,4\n5,6,7,8' \
  /dev/stderr 1>/dev/null
```

Dari contoh kode sebelumnya, output respons mengikuti.

```
0.6
0.3
```

Dalam contoh kode berikut, permintaan terdiri dari catatan tunggal, dan responsnya adalah nilai probabilitas dari model multiclass yang berisi tiga kelas.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-csv-1 \
  --content-type text/csv \
  --accept text/csv \
  --body '1,2,3,4' \
  /dev/stderr 1>/dev/null
```

Dari contoh kode sebelumnya, output respons mengikuti.

```
0.1,0.6,0.3
```

Dalam contoh kode berikut, permintaan terdiri dari dua catatan, dan responsnya mencakup nilai probabilitasnya dari model multiclass yang berisi tiga kelas.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-csv-1 \
  --content-type text/csv \
  --accept text/csv \
  --body $'1,2,3,4\n5,6,7,8' \
  /dev/stderr 1>/dev/null
```

Dari contoh kode sebelumnya, output respons mengikuti.

```
0.1,0.6,0.3
0.2,0.5,0.3
```

Dalam contoh kode berikut, permintaan terdiri dari dua catatan, dan responsnya mencakup label dan probabilitas yang diprediksi.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-csv-2 \
  --content-type text/csv \
  --accept text/csv \
  --body $'1,2,3,4\n5,6,7,8' \
  /dev/stderr 1>/dev/null
```

Dari contoh kode sebelumnya, output respons mengikuti.

```
1,0.6
0,0.3
```

Dalam contoh kode berikut, permintaan terdiri dari dua catatan dan responsnya mencakup header label dan probabilitas.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-csv-3 \
  --content-type text/csv \
  --accept text/csv \
  --body $'1,2,3,4\n5,6,7,8' \
  /dev/stderr 1>/dev/null
```

Dari contoh kode sebelumnya, output respons mengikuti.

```
"['cat','dog','fish']","[0.1,0.6,0.3]"
"['cat','dog','fish']","[0.2,0.5,0.3]"
```

## Permintaan dan respons titik akhir dalam format JSON Lines
<a name="clarify-processing-job-data-format-tabular-precheck-jsonlines"></a>

Dalam contoh kode berikut, permintaan terdiri dari satu catatan dan responsnya adalah nilai probabilitasnya.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-jsonlines \
  --content-type application/jsonlines \
  --accept application/jsonlines \
  --body '{"features":["This is a good product",5]}' \
  /dev/stderr 1>/dev/null
```

Dari contoh kode sebelumnya, output respons mengikuti.

```
{"score":0.6}
```

Dalam contoh kode berikut, permintaan berisi dua catatan, dan responsnya mencakup label dan probabilitas yang diprediksi.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-jsonlines-2 \
  --content-type application/jsonlines \
  --accept application/jsonlines \
  --body $'{"features":[1,2,3,4]}\n{"features":[5,6,7,8]}' \
  /dev/stderr 1>/dev/null
```

Dari contoh kode sebelumnya, output respons mengikuti.

```
{"predicted_label":1,"probability":0.6}
{"predicted_label":0,"probability":0.3}
```

Dalam contoh kode berikut, permintaan berisi dua catatan, dan responsnya mencakup header label dan probabilitas.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-jsonlines-3 \
  --content-type application/jsonlines \
  --accept application/jsonlines \
  --body $'{"data":{"features":[1,2,3,4]}}\n{"data":{"features":[5,6,7,8]}}' \
  /dev/stderr 1>/dev/null
```

Dari contoh kode sebelumnya, output respons mengikuti.

```
{"predicted_labels":["cat","dog","fish"],"probabilities":[0.1,0.6,0.3]}
{"predicted_labels":["cat","dog","fish"],"probabilities":[0.2,0.5,0.3]}
```

## Permintaan dan respons titik akhir dalam format campuran
<a name="clarify-processing-job-data-format-tabular-precheck-diff"></a>

Dalam contoh kode berikut, permintaan dalam format CSV dan responsnya dalam format JSON Lines.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-csv-in-jsonlines-out \
  --content-type text/csv \
  --accept application/jsonlines \
  --body $'1,2,3,4\n5,6,7,8' \
  /dev/stderr 1>/dev/null
```

Dari contoh kode sebelumnya, output respons mengikuti.

```
{"probability":0.6}
{"probability":0.3}
```

Dalam contoh kode berikut, permintaan dalam format JSON Lines dan responsnya dalam format CSV.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-jsonlines-in-csv-out \
  --content-type application/jsonlines \
  --accept text/csv \
  --body $'{"features":[1,2,3,4]}\n{"features":[5,6,7,8]}' \
  /dev/stderr 1>/dev/null
```

Dari contoh kode sebelumnya, output respons mengikuti.

```
0.6
0.3
```

Dalam contoh kode berikut, permintaan dalam format CSV dan responsnya dalam format JSON.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-csv-in-jsonlines-out \
  --content-type text/csv \
  --accept application/jsonlines \
  --body $'1,2,3,4\n5,6,7,8' \
  /dev/stderr 1>/dev/null
```

Dari contoh kode sebelumnya, output respons mengikuti.

```
{"predictions":[{"label":1,"score":0.6},{"label":0,"score":0.3}]}
```

# Persyaratan data gambar
<a name="clarify-processing-job-data-format-image"></a>

Pekerjaan pemrosesan SageMaker Clarify memberikan dukungan untuk menjelaskan gambar. Topik ini menyediakan persyaratan format data untuk data gambar. Untuk informasi tentang memproses data gambar, lihat[Menganalisis data gambar untuk penjelasan visi komputer](clarify-processing-job-run.md#clarify-processing-job-run-cv).

Dataset gambar berisi satu atau lebih file gambar. Untuk mengidentifikasi kumpulan data input ke tugas pemrosesan SageMaker Clarify, tetapkan `dataset_uri` parameter konfigurasi [ProcessingInput](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateProcessingJob.html#sagemaker-CreateProcessingJob-request-ProcessingInputs)bernama `dataset` atau analisis ke awalan URI Amazon S3 dari file gambar Anda.

Format file gambar yang didukung dan ekstensi file tercantum dalam tabel berikut.


| Format gambar | Ekstensi file | 
| --- | --- | 
|  JPEG  |  jpg, jpeg  | 
|  PNG  |  png  | 

Atur `dataset_type` parameter konfigurasi analisis ke**application/x-image**. Karena jenisnya bukan format file gambar tertentu, `content_type` maka akan digunakan untuk menentukan format dan ekstensi file gambar.

Pekerjaan pemrosesan SageMaker Clarify memuat setiap file gambar ke [NumPyarray](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html) 3 dimensi untuk diproses lebih lanjut. Tiga dimensi termasuk tinggi, lebar, dan nilai RGB dari setiap piksel.

## Format permintaan titik akhir
<a name="clarify-processing-job-data-format-image-request"></a>

Pekerjaan pemrosesan SageMaker Clarify mengubah data RGB mentah dari suatu gambar menjadi format gambar yang kompatibel, seperti JPEG. Ia melakukan ini sebelum mengirim data ke titik akhir untuk prediksi. Format gambar yang didukung adalah sebagai berikut.


| Format Data | Tipe MIME | Ekstensi file | 
| --- | --- | --- | 
|  JPEG  |  `image/jpeg`  |  jpg, jpeg  | 
|  PNG  |  `image/png`  |  png  | 
|  NPY  |  `application/x-npy`  |  Semua di atas  | 

Tentukan format data payload permintaan dengan menggunakan parameter `content_type` konfigurasi analisis. Jika tidak `content_type` disediakan, format data default ke. `image/jpeg`

## Format respons titik akhir
<a name="clarify-processing-job-data-format-image-response"></a>

Setelah menerima respons dari pemanggilan titik akhir inferensi, pekerjaan pemrosesan SageMaker Clarialisasi deserialisasi muatan respons dan kemudian mengekstrak prediksi darinya.

### Masalah klasifikasi gambar
<a name="clarify-processing-job-data-format-image-response-class"></a>

Format data payload respon harus ditentukan oleh parameter konfigurasi analisis accept\$1type. Jika tidak `accept_type` disediakan, format data default ke. `application/json` Format yang didukung sama dengan yang dijelaskan dalam **respons Titik Akhir untuk data tabular di bagian data** tabular.

Lihat [Inferensi dengan Algoritma Klasifikasi Gambar](image-classification.md#IC-inference) contoh algoritma klasifikasi gambar bawaan SageMaker AI yang menerima satu gambar dan kemudian mengembalikan array nilai probabilitas (skor), masing-masing untuk kelas.

Seperti yang ditunjukkan pada tabel berikut, ketika `content_type` parameter diatur ke`application/jsonlines`, responsnya adalah objek JSON.


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Gambar tunggal  |  '\$1"prediksi”: [0.1,0.6,0.3]\$1'  | 

Pada contoh sebelumnya, atur `probability` parameter ke JMESPath ekspresi “prediksi” untuk mengekstrak skor.

Ketika `content_type` diatur ke`application/json`, respon adalah objek JSON, seperti yang ditunjukkan pada tabel berikut.


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Gambar tunggal  |  '[0.1,0.6,0.3]'  | 

Pada contoh sebelumnya, atur `probability` ke JMESPath ekspresi “[\$1]” untuk mengekstrak semua elemen array. Pada contoh sebelumnya, [`0.1, 0.6, 0.3]`diekstraksi. Atau, jika Anda melewatkan pengaturan parameter `probability` konfigurasi, maka semua elemen array juga diekstraksi. Ini karena seluruh muatan dideserialisasi sebagai prediksi.

### Masalah deteksi objek
<a name="clarify-processing-job-data-format-object-response-class"></a>

Konfigurasi analisis `accept_type` default `application/json` dan satu-satunya format yang didukung adalah Format Inferensi Deteksi Objek. Untuk informasi selengkapnya tentang format respons, lihat[Format Respons](object-detection-in-formats.md#object-detection-recordio).

Tabel berikut adalah contoh respon dari endpoint yang output array. Setiap elemen array adalah array nilai yang berisi indeks kelas, skor kepercayaan, dan koordinat kotak pembatas dari objek yang terdeteksi.


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Gambar tunggal (satu objek)  |  '[[4.0, 0,86419455409049988, 0,3088374733924866, 0,07030484080314636, 0,7110607028007507, 0,9345266819000244]]'  | 
|  Gambar tunggal (dua objek)  |  '[[4.0, 0,86419455409049988, 0,3088374733924866, 0,07030484080314636, 0,7110607028007507, 0,9345266819000244], [0,0, 0,73376623392105103, 0,5714187026023865, 0,40427327156066895, 0,827075183391571, 0,9712159633636475]]'  | 

Tabel berikut adalah contoh respon dari endpoint yang output objek JSON dengan kunci mengacu pada array. Atur konfigurasi analisis `probability` ke “prediksi” kunci untuk mengekstrak nilai.


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | 
| --- | --- | 
|  Gambar tunggal (satu objek)  |  '\$1"prediksi”: [[4.0, 0.86419455409049988, 0.3088374733924866, 0.07030484080314636, 0.7110607028007507, 0.9345266819000244]]\$1'  | 
|  Gambar tunggal (dua objek)  |  '\$1"prediksi”: [[4.0, 0.86419455409049988, 0.3088374733924866, 0.07030484080314636, 0.7110607028007507, 0.9345266819000244], [0.73376623392105103, 0.57141870260236023865, 0,40427327156066895, 0,827075183391571, 0,9712159633636475]]\$1'  | 

## Pra-periksa permintaan titik akhir dan respons untuk data gambar
<a name="clarify-processing-job-data-format-object-precheck"></a>

Kami menyarankan Anda menerapkan model Anda ke titik akhir inferensi real-time SageMaker AI, dan mengirim permintaan ke titik akhir. Periksa permintaan dan tanggapan secara manual. Pastikan keduanya sesuai dengan persyaratan di bagian **Endpoint request for image data dan **Endpoint response for image** data** section.

Berikut ini adalah dua contoh kode yang menunjukkan cara mengirim permintaan dan memeriksa tanggapan untuk klasifikasi gambar dan masalah deteksi objek.

### Masalah klasifikasi gambar
<a name="clarify-processing-job-data-format-object-precheck-class"></a>

Contoh kode berikut menginstruksikan endpoint untuk membaca file PNG dan kemudian mengklasifikasikannya.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-sagemaker-image-classification \
  --content-type "image/png" \
  --accept "application/json" \
  --body fileb://./test.png  \
  /dev/stderr 1>/dev/null
```

Dari contoh kode sebelumnya, output respons mengikuti.

```
[0.1,0.6,0.3]
```

### Masalah deteksi objek
<a name="clarify-processing-job-data-format-object-precheck-object"></a>

Contoh kode berikut menginstruksikan endpoint untuk membaca file JPEG dan kemudian mendeteksi objek di dalamnya.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-sagemaker-object-detection \
  --content-type "image/jpg" \
  --accept "application/json" \
  --body fileb://./test.jpg  \
  /dev/stderr 1>/dev/null
```

Dari contoh kode sebelumnya, output respons mengikuti.

```
{"prediction":[[4.0, 0.86419455409049988, 0.3088374733924866, 0.07030484080314636, 0.7110607028007507, 0.9345266819000244],[0.0, 0.73376623392105103, 0.5714187026023865, 0.40427327156066895, 0.827075183391571, 0.9712159633636475],[4.0, 0.32643985450267792, 0.3677481412887573, 0.034883320331573486, 0.6318609714508057, 0.5967587828636169],[8.0, 0.22552496790885925, 0.6152569651603699, 0.5722782611846924, 0.882301390171051, 0.8985623121261597],[3.0, 0.42260299175977707, 0.019305512309074402, 0.08386176824569702, 0.39093565940856934, 0.9574796557426453]]}
```

# Data deret waktu
<a name="clarify-processing-job-data-format-time-series"></a>

Data deret waktu mengacu pada data yang dapat dimuat ke dalam kerangka data tiga dimensi. Dalam bingkai, di setiap stempel waktu, setiap baris mewakili catatan target, dan setiap catatan target memiliki satu atau lebih kolom terkait. Nilai dalam setiap sel bingkai data dapat berupa tipe data numerik, kategoris, atau teks.

## Prasyarat kumpulan data deret waktu
<a name="clarify-processing-job-data-format-time-series-prereq"></a>

Sebelum melakukan analisis, selesaikan langkah-langkah pra-pemrosesan yang diperlukan untuk menyiapkan data Anda, seperti pembersihan data atau rekayasa fitur. Anda dapat menyediakan satu atau beberapa kumpulan data. Jika Anda menyediakan beberapa kumpulan data, gunakan salah satu metode berikut untuk memasoknya ke pekerjaan pemrosesan SageMaker Clarify:
+ Gunakan konfigurasi [ProcessingInput](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProcessingInput.html)bernama `dataset` atau analisis `dataset_uri` untuk menentukan kumpulan data utama. Untuk informasi selengkapnya`dataset_uri`, lihat daftar parameter di[File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).
+ Gunakan `baseline` parameter yang disediakan dalam file konfigurasi analisis. Dataset dasar diperlukan untuk`static_covariates`, jika ada. Untuk informasi selengkapnya tentang file konfigurasi analisis, termasuk contoh, lihat[File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).

Tabel berikut mencantumkan format data yang didukung, ekstensi file, dan tipe MIME.


| Format data | Ekstensi file | Tipe MIME | 
| --- | --- | --- | 
|  `item_records`  |  json  |  `application/json`  | 
|  `timestamp_records`  |  json  |  `application/json`  | 
|  `columns`  |  json  |  `application/json`  | 

JSON adalah format fleksibel yang dapat mewakili tingkat kerumitan apa pun dalam data terstruktur Anda. Seperti yang ditunjukkan pada tabel, SageMaker Clarify mendukung format`item_records`,`timestamp_records`, dan`columns`.

## Contoh konfigurasi kumpulan data deret waktu
<a name="clarify-processing-job-data-format-time-series-ex"></a>

Bagian ini menunjukkan cara mengatur konfigurasi analisis menggunakan data deret `time_series_data_config` waktu dalam format JSON. Misalkan Anda memiliki kumpulan data dengan dua item, masing-masing dengan stempel waktu (t), deret waktu target (x), dua deret waktu terkait (r) dan dua kovariat statis (u) sebagai berikut:

 t 1 = [0,1,2], t 2 = [2,3]

x 1 = [5,6,4], x 2 = [0,4]

r 1  = [0,1,0], r 2 1 = [1,1]

r 1 2 = [0,0,0], r 2 2 = [1,0]

u 1 1 = -1, u 2 1 = 0

u 1 2 = 1, u 2 2 = 2

Anda dapat menyandikan kumpulan data menggunakan tiga `time_series_data_config` cara berbeda, tergantung pada. `dataset_format` Bagian berikut menjelaskan setiap metode.

### Konfigurasi data deret waktu kapan `dataset_format` `columns`
<a name="clarify-processing-job-data-format-time-series-columns"></a>

Contoh berikut menggunakan `columns` nilai untuk`dataset_format`. File JSON berikut mewakili dataset sebelumnya.

```
{
    "ids": [1, 1, 1, 2, 2],
    "timestamps": [0, 1, 2, 2, 3], # t
    "target_ts": [5, 6, 4, 0, 4], # x
    "rts1": [0, 1, 0, 1, 1], # r1
    "rts2": [0, 0, 0, 1, 0], # r2
    "scv1": [-1, -1, -1, 0, 0], # u1
    "scv2": [1, 1, 1, 2, 2], # u2
}
```

Perhatikan bahwa id item diulang di `ids` lapangan. Implementasi yang `time_series_data_config` benar ditunjukkan sebagai berikut:

```
"time_series_data_config": {
    "item_id": "ids",
    "timestamp": "timestamps",
    "target_time_series": "target_ts",
    "related_time_series": ["rts1", "rts2"],
    "static_covariates": ["scv1", "scv2"],
    "dataset_format": "columns"
}
```

### Konfigurasi data deret waktu kapan `dataset_format` `item_records`
<a name="clarify-processing-job-data-format-time-series-itemrec"></a>

Contoh berikut menggunakan `item_records` nilai untuk`dataset_format`. File JSON berikut mewakili dataset.

```
[
    {
        "id": 1,
        "scv1": -1,
        "scv2": 1,
        "timeseries": [
            {"timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0},
            {"timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0},
            {"timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0}
        ]
    },
    {
        "id": 2,
        "scv1": 0,
        "scv2": 2,
        "timeseries": [
            {"timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1},
            {"timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0}
        ]
    }
]
```

Setiap item direpresentasikan sebagai entri terpisah di JSON. Cuplikan berikut menunjukkan yang sesuai `time_series_data_config` (yang menggunakan JMESPath). 

```
"time_series_data_config": {
    "item_id": "[*].id",
    "timestamp": "[*].timeseries[].timestamp",
    "target_time_series": "[*].timeseries[].target_ts",
    "related_time_series": ["[*].timeseries[].rts1", "[*].timeseries[].rts2"],
    "static_covariates": ["[*].scv1", "[*].scv2"],
    "dataset_format": "item_records"
}
```

### Konfigurasi data deret waktu kapan `dataset_format` `timestamp_record`
<a name="clarify-processing-job-data-format-time-series-tsrec"></a>

Contoh berikut menggunakan `timestamp_record` nilai untuk`dataset_format`. File JSON berikut mewakili dataset sebelumnya.

```
[
    {"id": 1, "timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1},
    {"id": 1, "timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0, "svc1": -1, "svc2": 1},
    {"id": 1, "timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1},
    {"id": 2, "timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1, "svc1": 0, "svc2": 2},
    {"id": 2, "timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0, "svc1": 0, "svc2": 2},
]
```

Setiap entri JSON mewakili satu stempel waktu dan sesuai dengan satu item. `time_series_data_config`Implementasinya ditunjukkan sebagai berikut: 

```
{
    "item_id": "[*].id",
    "timestamp": "[*].timestamp",
    "target_time_series": "[*].target_ts",
    "related_time_series": ["[*].rts1"],
    "static_covariates": ["[*].scv1"],
    "dataset_format": "timestamp_records"
}
```

# Permintaan titik akhir untuk data deret waktu
<a name="clarify-processing-job-data-format-time-series-request-jsonlines"></a>

Pekerjaan pemrosesan SageMaker Clarify membuat serialisasi data ke dalam struktur JSON arbitrer (dengan tipe MIME:). `application/json` Untuk melakukan ini, Anda harus memberikan string template ke `content_template` parameter konfigurasi analisis. Ini digunakan oleh pekerjaan pemrosesan SageMaker Clarify untuk membuat kueri JSON yang disediakan untuk model Anda. `content_template`berisi catatan atau beberapa catatan dari kumpulan data Anda. Anda juga harus menyediakan string template untuk`record_template`, yang digunakan untuk membangun struktur JSON dari setiap record. Catatan-catatan ini kemudian dimasukkan ke dalam`content_template`. Untuk informasi lebih lanjut tentang `content_type` atau`dataset_type`, lihat[File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).

**catatan**  
Karena `content_template` dan `record_template` merupakan parameter string, setiap karakter kutipan ganda (“) yang merupakan bagian dari struktur serial JSON harus dicatat sebagai karakter yang diloloskan dalam konfigurasi Anda. Misalnya, jika Anda ingin menghindari tanda kutip ganda di Python, Anda bisa memasukkan nilai berikut untuk: `content_template`  

```
'$record'
```

Tabel berikut menunjukkan contoh muatan permintaan JSON serial dan `record_template` parameter yang sesuai `content_template` dan yang diperlukan untuk membangunnya.


| Kasus penggunaan | Muatan permintaan titik akhir (representasi string) | content\$1template | record\$1template | 
| --- | --- | --- | --- | 
|  Rekaman tunggal pada satu waktu  |  `{"target": [1, 2, 3],"start": "2024-01-01 01:00:00"}`  |  `'$record'`  |  `'{"start": $start_time, "target": $target_time_series}'`  | 
|  Rekaman tunggal dengan `$related_time_series` dan `$static_covariates`  |  `{"target": [1, 2, 3],"start": "2024-01-01 01:00:00","dynamic_feat": [[1.0, 2.0, 3.0],[1.0, 2.0, 3.0],"cat": [0,1]}`  |  `'$record'`  |  `'{"start": $start_time, "target": $target_time_series, "dynamic_feat": $related_time_series, "cat": $static_covariates}'`  | 
|  Multi-catatan  |  `{"instances": [{"target": [1, 2, 3],"start": "2024-01-01 01:00:00"}, {"target": [1, 2, 3],"start": "2024-01-01 02:00:00"}]}`  |  `'{"instances": $records}'`  |  `'{"start": $start_time, "target": $target_time_series}'`  | 
|  Multi-record dengan `$related_time_series` dan `$static_covariates`  |  `{"instances": [{"target": [1, 2, 3],"start": "2024-01-01 01:00:00","dynamic_feat": [[1.0, 2.0, 3.0],[1.0, 2.0, 3.0],"cat": [0,1]}, {"target": [1, 2, 3],"start": "2024-01-01 02:00:00","dynamic_feat": [[1.0, 2.0, 3.0],[1.0, 2.0, 3.0],"cat": [0,1]}]}`  |  `'{"instances": $records}'`  |  `''{"start": $start_time, "target": $target_time_series, "dynamic_feat": $related_time_series, "cat": $static_covariates}'`  | 

# Respon titik akhir untuk data deret waktu
<a name="clarify-processing-job-data-format-time-series-response-json"></a>

Pekerjaan pemrosesan SageMaker Clarify mendeserialisasi seluruh muatan sebagai JSON. Kemudian mengekstrak prediksi dari data deserialisasi menggunakan JMESPath ekspresi yang disediakan dalam konfigurasi analisis. Catatan dalam muatan respons harus sesuai dengan catatan dalam payload permintaan.

Tabel berikut adalah contoh respons dari titik akhir yang hanya menampilkan nilai prediksi rata-rata. Nilai yang `forecast` digunakan di `predictor` bidang dalam [konfigurasi analisis](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-processing-job-configure-analysis.html#clarify-processing-job-configure-analysis-parameters) harus disediakan sebagai JMESPath ekspresi untuk menemukan hasil prediksi untuk pekerjaan pemrosesan.


| Muatan permintaan titik akhir | Muatan respons titik akhir (representasi string) | JMESPath ekspresi untuk perkiraan dalam konfigurasi analisis | 
| --- | --- | --- | 
|  Contoh catatan tunggal. Config harus mengekstrak prediksi `TimeSeriesModelConfig(forecast="prediction.mean")` dengan benar.  |  `'{"prediction": {"mean": [1, 2, 3, 4, 5]}'`  |  `'prediction.mean'`  | 
|  Beberapa catatan. Respons titik akhir AWS DeepAR.  |  `'{"predictions": [{"mean": [1, 2, 3, 4, 5]}, {"mean": [1, 2, 3, 4, 5]}]}'`  |  `'predictions[*].mean'`  | 

# Pra-periksa permintaan titik akhir dan respons untuk data deret waktu
<a name="clarify-processing-job-data-format-time-series-precheck"></a>

Anda disarankan untuk menerapkan model Anda ke titik akhir inferensi real-time SageMaker AI dan mengirim permintaan ke titik akhir. Periksa permintaan dan tanggapan secara manual untuk memastikan bahwa keduanya sesuai dengan persyaratan di [Respon titik akhir untuk data deret waktu](clarify-processing-job-data-format-time-series-response-json.md) bagian [Permintaan titik akhir untuk data deret waktu](clarify-processing-job-data-format-time-series-request-jsonlines.md) dan. Jika wadah model Anda mendukung permintaan batch, Anda dapat memulai dengan satu permintaan rekaman dan kemudian mencoba dua atau lebih catatan.

Perintah berikut menunjukkan cara meminta respons menggunakan AWS CLI. AWS CLI Ini sudah diinstal sebelumnya di instans Studio dan SageMaker Notebook. Untuk menginstal AWS CLI, ikuti [panduan instalasi](https://aws.amazon.com//cli/).

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name $ENDPOINT_NAME \
  --content-type $CONTENT_TYPE \
  --accept $ACCEPT_TYPE \
  --body $REQUEST_DATA \
  $CLI_BINARY_FORMAT \
  /dev/stderr 1>/dev/null
```

Parameter didefinisikan sebagai berikut:
+ \$1 ENDPOINT NAME — Nama titik akhir.
+ \$1CONTENT\$1TYPE - Jenis MIME dari permintaan (input wadah model).
+ \$1ACCEPT\$1TYPE — Tipe MIME dari respon (model container output).
+ \$1REQUEST\$1DATA - String payload yang diminta.
+ \$1 CLI\$1BINARY\$1FORMAT — Format parameter antarmuka baris perintah (CLI). Untuk AWS CLI v1, parameter ini harus tetap kosong. Untuk v2, parameter ini harus diatur ke`--cli-binary-format raw-in-base64-out`.

**catatan**  
AWS CLI v2 melewati parameter biner sebagai string yang dikodekan base64 secara default. Contoh permintaan dan respons berikut ke dan dari titik akhir menggunakan AWS CLI v1. 

------
#### [ Example 1 ]

Dalam contoh kode berikut, permintaan terdiri dari satu catatan.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-json \
  --content-type application/json \
  --accept application/json \
  --body '{"target": [1, 2, 3, 4, 5],
    "start": "2024-01-01 01:00:00"}' \
/dev/stderr 1>/dev/null
```

Cuplikan berikut menunjukkan output respons yang sesuai.

```
{'predictions': {'mean': [1, 2, 3, 4, 5]}
```

------
#### [ Example 2 ]

Dalam contoh kode berikut, permintaan berisi dua catatan.

```
aws sagemaker-runtime invoke-endpoint \
  --endpoint-name test-endpoint-json-2 \
  --content-type application/json \
  --accept application/json \
  --body $'{"instances": [{"target":[1, 2, 3],
    "start":"2024-01-01 01:00:00",
    "dynamic_feat":[[1, 2, 3, 4, 5],
        [1, 2, 3, 4, 5]]}], {"target":[1, 2, 3],
    "start":"2024-01-02 01:00:00",
    "dynamic_feat":[[1, 2, 3, 4, 5],
        [1, 2, 3, 4, 5]]}]}' \
dev/stderr 1>/dev/null
```

Output respon adalah sebagai berikut:

```
{'predictions': [{'mean': [1, 2, 3, 4, 5]}, {'mean': [1, 2, 3, 4, 5]}]}
```

------