

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Membuat Pekerjaan Regresi atau Klasifikasi untuk Data Tabular Menggunakan AutoML API
<a name="autopilot-automate-model-development-create-experiment"></a>

Anda dapat membuat tugas regresi atau klasifikasi Autopilot untuk data tabular secara terprogram dengan memanggil tindakan [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)API dalam bahasa apa pun yang didukung oleh Autopilot atau. AWS CLI Berikut ini adalah kumpulan parameter permintaan input wajib dan opsional untuk tindakan `CreateAutoMLJobV2` API. Anda dapat menemukan informasi alternatif untuk versi sebelumnya dari tindakan ini,`CreateAutoMLJob`. Namun, kami sarankan untuk menggunakan`CreateAutoMLJobV2`. 

Untuk informasi tentang cara tindakan API ini diterjemahkan ke dalam fungsi dalam bahasa pilihan Anda, lihat bagian [Lihat Juga](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_SeeAlso) `CreateAutoMLJobV2` dan pilih SDK. Sebagai contoh, untuk pengguna Python, lihat sintaks permintaan lengkap dari in. `[create\$1auto\$1ml\$1job\$1v2](https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/sagemaker.html#SageMaker.Client.create_auto_ml_job_v2)` AWS SDK untuk Python (Boto3)

**catatan**  
[CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html) dan [DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html) adalah versi baru [CreateAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html)dan [DescribeAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html)yang menawarkan kompatibilitas mundur.  
Kami merekomendasikan menggunakan`CreateAutoMLJobV2`. `CreateAutoMLJobV2`dapat mengelola jenis masalah tabular yang identik dengan versi sebelumnya`CreateAutoMLJob`, serta jenis masalah non-tabular seperti klasifikasi gambar atau teks, atau peramalan deret waktu.

Minimal, semua eksperimen pada data tabular memerlukan spesifikasi nama eksperimen, menyediakan lokasi untuk data input dan output, dan menentukan data target mana yang akan diprediksi. Secara opsional, Anda juga dapat menentukan jenis masalah yang ingin Anda selesaikan (regresi, klasifikasi, klasifikasi multiclass), pilih strategi pemodelan Anda (*ansambel bertumpuk* atau *optimasi hiperparameter*), pilih daftar algoritma yang digunakan oleh pekerjaan Autopilot untuk melatih data, dan banyak lagi. 

 Setelah eksperimen berjalan, Anda dapat membandingkan uji coba dan mempelajari detail langkah pra-pemrosesan, algoritme, dan rentang hiperparameter dari setiap model. Anda juga memiliki opsi untuk mengunduh laporan [penjelasan](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-explainability.html) dan [kinerjanya](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-model-insights.html). Gunakan [buku catatan](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-automate-model-development-notebook-output.html ) yang disediakan untuk melihat hasil eksplorasi data otomatis atau definisi model kandidat.

Temukan panduan tentang cara memigrasi `CreateAutoMLJob` ke `CreateAutoMLJobV2` in[Migrasi CreateAuto MLJob ke V2 CreateAuto MLJob](#autopilot-create-experiment-api-migrate-v1-v2).

## Parameter yang diperlukan
<a name="autopilot-create-experiment-api-required-params"></a>

------
#### [ CreateAutoMLJobV2 ]

Saat menelepon `[CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)` untuk membuat eksperimen Autopilot untuk data tabular, Anda harus memberikan nilai berikut:
+ An `[AutoMLJobName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_RequestSyntax)` untuk menentukan nama pekerjaan Anda.
+ Setidaknya satu `[AutoMLJobChannel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)` `[AutoMLJobInputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig)` untuk menentukan sumber data Anda.
+ Baik `[AutoMLJobObjective](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobObjective)` metrik dan jenis masalah pembelajaran terawasi pilihan Anda (klasifikasi biner, klasifikasi multikelas, regresi) di`AutoMLProblemTypeConfig`, atau tidak sama sekali. Untuk data tabular, Anda harus memilih `[TabularJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)` sebagai jenis. `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)` Anda mengatur masalah pembelajaran yang diawasi dalam `ProblemType` atribut. `TabularJobConfig`
+ `[OutputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html)`Untuk menentukan jalur keluaran Amazon S3 untuk menyimpan artefak pekerjaan AutoML Anda.
+ A `[RoleArn](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-RoleArn)` untuk menentukan ARN dari peran yang digunakan untuk mengakses data Anda.

------
#### [ CreateAutoMLJob ]

Saat memanggil `[CreateAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html)` untuk membuat eksperimen AutoML, Anda harus memberikan empat nilai berikut:
+ An `[AutoMLJobName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-AutoMLJobName)` untuk menentukan nama pekerjaan Anda.
+ Setidaknya satu `[AutoMLChannel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html)` `[InputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-InputDataConfig)` untuk menentukan sumber data Anda.
+ `[OutputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html)`Untuk menentukan jalur keluaran Amazon S3 untuk menyimpan artefak pekerjaan AutoML Anda.
+ A `[RoleArn](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-RoleArn)` untuk menentukan ARN dari peran yang digunakan untuk mengakses data Anda.

------

Semua parameter lainnya adalah opsional.

## Parameter opsional
<a name="autopilot-create-experiment-api-optional-params"></a>

Bagian berikut memberikan detail beberapa parameter opsional yang dapat Anda teruskan ke tindakan `CreateAutoMLJobV2` API saat menggunakan data tabular. Anda dapat menemukan informasi alternatif untuk versi sebelumnya dari tindakan ini,`CreateAutoMLJob`. Namun, kami sarankan untuk menggunakan`CreateAutoMLJobV2`.

### Cara mengatur mode pelatihan pekerjaan AutoML
<a name="autopilot-set-training-mode"></a>

Untuk data tabular, kumpulan algoritme yang dijalankan pada data Anda untuk melatih kandidat model Anda bergantung pada strategi pemodelan Anda (`ENSEMBLING`atau`HYPERPARAMETER_TUNING`). Berikut ini detail cara mengatur mode pelatihan ini.

Jika Anda tetap kosong (atau`null`), `Mode` disimpulkan berdasarkan ukuran kumpulan data Anda.

*Untuk informasi tentang *ansambel bertumpuk Autopilot dan metode pelatihan pengoptimalan hiperparameter*, lihat* [Mode pelatihan dan dukungan algoritma](autopilot-model-support-validation.md)

------
#### [ CreateAutoMLJobV2 ]

Untuk data tabular, Anda harus memilih `[TabularJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)` sebagai jenis. `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)`

Anda dapat mengatur [metode pelatihan](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-model-support-validation.html) pekerjaan AutoML V2 dengan parameter. `[TabularJobConfig.Mode](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)`

------
#### [ CreateAutoMLJob ]

Anda dapat mengatur [metode pelatihan](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-model-support-validation.html) pekerjaan AutoML dengan parameter. `[AutoMLJobConfig.Mode](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobConfig.html#sagemaker-Type-AutoMLJobConfig-Mode)`

------

### Cara memilih fitur dan algoritme untuk melatih pekerjaan AutoML
<a name="autopilot-feature-selection"></a>

#### Pilihan fitur
<a name="autopilot-automl-job-feature-selection-api"></a>

Autopilot menyediakan langkah-langkah pra-pemrosesan data otomatis termasuk pemilihan fitur dan ekstraksi fitur. Namun, Anda dapat secara manual menyediakan fitur yang akan digunakan dalam pelatihan dengan `FeatureSpecificatioS3Uri` atribut.

Fitur yang dipilih harus terkandung dalam file JSON dalam format berikut:

```
{ "FeatureAttributeNames":["col1", "col2", ...] }
```

Nilai yang tercantum dalam `["col1", "col2", ...]` peka huruf besar/kecil. Mereka harus berupa daftar string yang berisi nilai unik yang merupakan himpunan bagian dari nama kolom dalam data input.

**catatan**  
Daftar kolom yang disediakan sebagai fitur tidak dapat menyertakan kolom target.

------
#### [ CreateAutoMLJobV2 ]

Untuk data tabular, Anda harus memilih `[TabularJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)` sebagai jenis. `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)`

Anda dapat mengatur URL ke fitur yang Anda pilih dengan `[TabularJobConfig.FeatureSpecificationS3Uri](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)` parameter.

------
#### [ CreateAutoMLJob ]

Anda dapat mengatur `FeatureSpecificatioS3Uri` atribut [Auto MLCandidate GenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidateGenerationConfig.html) dalam [CreateAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html)API dengan format berikut:

```
{
    "[AutoMLJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-AutoMLJobConfig)": {
        "[CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobConfig.html#sagemaker-Type-AutoMLJobConfig-CandidateGenerationConfig)": {
            "[FeatureSpecificationS3Uri](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidateGenerationConfig.html#sagemaker-Type-AutoMLCandidateGenerationConfig-FeatureSpecificationS3Uri)":"string"
            },
       }
  }
```

------

#### Pemilihan algoritma
<a name="autopilot-automl-job-algorithms-selection-api"></a>

Secara default, pekerjaan Autopilot Anda menjalankan daftar algoritme yang telah ditentukan sebelumnya pada kumpulan data Anda untuk melatih kandidat model. Daftar algoritma tergantung pada mode pelatihan (`ENSEMBLING`atau`HYPERPARAMETER_TUNING`) yang digunakan oleh pekerjaan.

Anda dapat memberikan subset dari pemilihan algoritme default.

------
#### [ CreateAutoMLJobV2 ]

Untuk data tabular, Anda harus memilih `[TabularJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)` sebagai jenis. `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)`

Anda dapat menentukan array yang dipilih `AutoMLAlgorithms` dalam `AlgorithmsConfig` atribut [CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateGenerationConfig.html).

Berikut ini adalah contoh `AlgorithmsConfig` atribut yang mencantumkan tepat tiga algoritma (“xgboost”, “fasai”, “catboost”) di `AutoMLAlgorithms` bidangnya untuk mode pelatihan ensembling.

```
{
   "[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)": {
        "[TabularJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)": {
          "[Mode](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)": "ENSEMBLING",
          "[CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateGenerationConfig.html)": {
            "[AlgorithmsConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateGenerationConfig.html#sagemaker-Type-CandidateGenerationConfig-AlgorithmsConfig)":[
               {"[AutoMLAlgorithms](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLAlgorithmConfig.html)":["xgboost", "fastai", "catboost"]}
            ]
         },
       },
     },
  }
```

------
#### [ CreateAutoMLJob ]

Anda dapat menentukan array yang dipilih `AutoMLAlgorithms` dalam `AlgorithmsConfig` atribut [Auto MLCandidate GenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidateGenerationConfig.html).

Berikut ini adalah contoh `AlgorithmsConfig` atribut yang mencantumkan tepat tiga algoritma (“xgboost”, “fasai”, “catboost”) di `AutoMLAlgorithms` bidangnya untuk mode pelatihan ensembling.

```
{
   "[AutoMLJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-AutoMLJobConfig)": {
        "[CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobConfig.html#sagemaker-Type-AutoMLJobConfig-CandidateGenerationConfig)": {
            "[AlgorithmsConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidateGenerationConfig.html#sagemaker-Type-AutoMLCandidateGenerationConfig-AlgorithmsConfig)":[
               {"[AutoMLAlgorithms](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLAlgorithmConfig.html#sagemaker-Type-AutoMLAlgorithmConfig-AutoMLAlgorithms)":["xgboost", "fastai", "catboost"]}
            ]
         },
     "Mode": "ENSEMBLING" 
  }
```

------

Untuk daftar algoritma yang tersedia per pelatihan`Mode`, lihat [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLAlgorithmConfig.html#sagemaker-Type-AutoMLAlgorithmConfig-AutoMLAlgorithms](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLAlgorithmConfig.html#sagemaker-Type-AutoMLAlgorithmConfig-AutoMLAlgorithms). Untuk detail tentang setiap algoritma, lihat[Mode pelatihan dan dukungan algoritma](autopilot-model-support-validation.md).

### Cara menentukan kumpulan data pelatihan dan validasi pekerjaan AutoML
<a name="autopilot-data-sources-training-or-validation"></a>

Anda dapat memberikan kumpulan data validasi dan rasio pemisahan data khusus Anda sendiri, atau membiarkan Autopilot membagi kumpulan data secara otomatis.

------
#### [ CreateAutoMLJobV2 ]

Setiap [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)objek (lihat parameter yang diperlukan [Auto MLJob InputDataConfig](https://docs.aws.amazon.com/sagemaker-api/src/AWSSageMakerAPIDoc/build/server-root/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig)) memiliki`ChannelType`, yang dapat diatur ke salah satu `training` atau `validation` nilai yang menentukan bagaimana data akan digunakan saat membangun model pembelajaran mesin. Setidaknya satu sumber data harus disediakan dan maksimal dua sumber data diperbolehkan: satu untuk data pelatihan dan satu untuk data validasi.

Bagaimana Anda membagi data menjadi kumpulan data pelatihan dan validasi tergantung pada apakah Anda memiliki satu atau dua sumber data.
+ Jika Anda hanya memiliki **satu sumber data**, `ChannelType` diatur ke secara `training` default dan harus memiliki nilai ini.
  + Jika `ValidationFraction` nilai dalam tidak [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html)disetel, 0.2 (20%) data dari sumber ini digunakan untuk validasi secara default. 
  + Jika `ValidationFraction` diatur ke nilai antara 0 dan 1, dataset dibagi berdasarkan nilai yang ditentukan, di mana nilai menentukan fraksi dari dataset yang digunakan untuk validasi.
+ Jika Anda memiliki **dua sumber data**, `ChannelType` salah satu `AutoMLJobChannel` objek harus diatur ke`training`, nilai default. Sumber data lainnya harus diatur ke`validation`. `ChannelType` Kedua sumber data harus memiliki format yang sama, baik CSV atau Parket, dan skema yang sama. Anda tidak boleh menetapkan nilai untuk `ValidationFraction` dalam kasus ini karena semua data dari setiap sumber digunakan untuk pelatihan atau validasi. Menyetel nilai ini menyebabkan kesalahan.

------
#### [ CreateAutoMLJob ]

Setiap [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html)objek (lihat parameter yang diperlukan [InputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-InputDataConfig)) memiliki`ChannelType`, yang dapat diatur ke salah satu `training` atau `validation` nilai yang menentukan bagaimana data akan digunakan saat membangun model pembelajaran mesin. Setidaknya satu sumber data harus disediakan dan maksimal dua sumber data diperbolehkan: satu untuk data pelatihan dan satu untuk data validasi.

Bagaimana Anda membagi data menjadi kumpulan data pelatihan dan validasi tergantung pada apakah Anda memiliki satu atau dua sumber data.
+ Jika Anda hanya memiliki **satu sumber data**, `ChannelType` diatur ke secara `training` default dan harus memiliki nilai ini.
  + Jika `ValidationFraction` nilai dalam tidak [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLDataSplitConfig.html)disetel, 0.2 (20%) data dari sumber ini digunakan untuk validasi secara default. 
  + Jika `ValidationFraction` diatur ke nilai antara 0 dan 1, dataset dibagi berdasarkan nilai yang ditentukan, di mana nilai menentukan fraksi dari dataset yang digunakan untuk validasi.
+ Jika Anda memiliki **dua sumber data**, `ChannelType` salah satu `AutoMLChannel` objek harus diatur ke`training`, nilai default. Sumber data lainnya harus diatur ke`validation`. `ChannelType` Kedua sumber data harus memiliki format yang sama, baik CSV atau Parket, dan skema yang sama. Anda tidak boleh menetapkan nilai untuk `ValidationFraction` dalam kasus ini karena semua data dari setiap sumber digunakan untuk pelatihan atau validasi. Menyetel nilai ini menyebabkan kesalahan.

------

Untuk informasi tentang validasi split dan cross-validasi di Autopilot lihat. [Validasi silang di Autopilot](autopilot-metrics-validation.md#autopilot-cross-validation)

### Cara mengatur jenis masalah pekerjaan AutoML
<a name="autopilot-set-problem-type-api"></a>

------
#### [ CreateAutoMLJobV2 ]

Untuk data tabular, Anda harus memilih `[TabularJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)` sebagai jenis. `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)`

Anda selanjutnya dapat menentukan jenis masalah pembelajaran yang diawasi (klasifikasi biner, klasifikasi multiclass, regresi) yang tersedia untuk kandidat model pekerjaan AutoML Anda V2 dengan parameter. `[TabularJobConfig.ProblemType](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)`

------
#### [ CreateAutoMLJob ]

Anda dapat mengatur [jenis masalah](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-datasets-problem-types.html#autopilot-problem-types) pada pekerjaan AutoML dengan parameter. `[CreateAutoPilot.ProblemType](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-ProblemType)` Ini membatasi jenis preprocessing dan algoritma yang Autopilot coba. Setelah pekerjaan selesai, jika Anda telah mengatur`[CreateAutoPilot.ProblemType](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-ProblemType)`, maka `[ResolvedAttribute.ProblemType](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ResolvedAttributes.html)` kecocokan yang `ProblemType` Anda tetapkan. Jika Anda menyimpannya kosong (atau`null`), `ProblemType` disimpulkan atas nama Anda. 

------

**catatan**  
Dalam beberapa kasus, Autopilot tidak dapat menyimpulkan `ProblemType` dengan kepercayaan diri yang cukup tinggi, dalam hal ini Anda harus memberikan nilai agar pekerjaan berhasil.

### Cara menambahkan bobot sampel ke pekerjaan AutoML
<a name="autopilot-add-sample-weights-api"></a>

Anda dapat menambahkan kolom bobot sampel ke kumpulan data tabular Anda dan kemudian meneruskannya ke pekerjaan AutoML Anda untuk meminta baris kumpulan data untuk ditimbang selama pelatihan dan evaluasi.

Support untuk bobot sampel hanya tersedia dalam mode [ensembling](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-model-support-validation.html#autopilot-training-mode). Bobot Anda harus numerik dan non-negatif. Poin data dengan nilai bobot tidak valid atau tidak ada dikecualikan. Untuk informasi selengkapnya tentang metrik objektif yang tersedia, lihat[Metrik tertimbang autopilot](autopilot-metrics-validation.md#autopilot-weighted-metrics).

------
#### [ CreateAutoMLJobV2 ]

Untuk data tabular, Anda harus memilih `[TabularJobConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TabularJobConfig.html)` sebagai jenis. `[AutoMLProblemTypeConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLProblemTypeConfig)`

Untuk mengatur bobot sampel saat membuat eksperimen (lihat [CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html)), Anda dapat meneruskan nama kolom bobot sampel di `SampleWeightAttributeName` atribut objek. `TabularJobConfig` Ini memastikan bahwa metrik objektif Anda menggunakan bobot untuk pelatihan, evaluasi, dan pemilihan kandidat model.

------
#### [ CreateAutoMLJob ]

Untuk mengatur bobot sampel saat membuat eksperimen (lihat [CreateAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html)), Anda dapat meneruskan nama kolom bobot sampel di `SampleWeightAttributeName` atribut objek [Otomatis MLChannel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html). Ini memastikan bahwa metrik objektif Anda menggunakan bobot untuk pelatihan, evaluasi, dan pemilihan kandidat model.

------

### Cara mengkonfigurasi AutoML untuk memulai pekerjaan jarak jauh di EMR Tanpa Server untuk kumpulan data besar
<a name="autopilot-set-emr-serverless-api-tabular"></a>

Anda dapat mengonfigurasi AutoML job V2 untuk secara otomatis memulai pekerjaan jarak jauh di Amazon EMR Tanpa Server saat sumber daya komputasi tambahan diperlukan untuk memproses kumpulan data besar. Dengan transisi mulus ke EMR Tanpa Server saat diperlukan, pekerjaan AutoML dapat menangani kumpulan data yang sebaliknya akan melebihi sumber daya yang disediakan sebelumnya, tanpa intervensi manual dari Anda. EMR Tanpa Server tersedia untuk jenis masalah tabular dan deret waktu. Kami merekomendasikan pengaturan opsi ini untuk kumpulan data tabular yang lebih besar dari 5 GB.

Untuk memungkinkan AutoML job V2 Anda secara otomatis beralih ke EMR Tanpa Server untuk kumpulan data besar, Anda perlu menyediakan `EmrServerlessComputeConfig` objek, yang menyertakan bidang, ke permintaan input AutoML job V2. `ExecutionRoleARN` `AutoMLComputeConfig`

`ExecutionRoleARN`Ini adalah ARN dari peran IAM yang memberikan pekerjaan AutoML V2 izin yang diperlukan untuk menjalankan pekerjaan EMR Tanpa Server.

Peran ini harus memiliki hubungan kepercayaan berikut:

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "Service": "emr-serverless.amazonaws.com"
            },
            "Action": "sts:AssumeRole"
        }
    ]
}
```

------

Dan berikan izin untuk:
+ Buat, daftar, dan perbarui aplikasi EMR Tanpa Server.
+ Mulai, daftar, dapatkan, atau batalkan pekerjaan berjalan pada aplikasi EMR Tanpa Server.
+ Tandai EMR Sumber daya tanpa server.
+ Lulus peran IAM ke layanan EMR Tanpa Server untuk dieksekusi.

  Dengan memberikan `iam:PassRole` izin, pekerjaan AutoML V2 dapat mengambil peran sementara dan meneruskannya `EMRServerlessRuntimeRole-*` ke layanan EMR Tanpa Server. Ini adalah peran IAM yang digunakan oleh lingkungan eksekusi pekerjaan EMR Tanpa Server untuk mengakses layanan dan sumber daya AWS lain yang diperlukan selama runtime, seperti Amazon S3 untuk akses data CloudWatch , untuk pencatatan, akses ke Katalog Data, atau layanan lain berdasarkan AWS Glue persyaratan beban kerja Anda.

  Lihat Peran [runtime Job untuk Amazon EMR Tanpa Server untuk detail tentang izin peran](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/security-iam-runtime-role.html) ini.

Kebijakan IAM yang ditentukan dalam dokumen JSON yang disediakan memberikan izin tersebut:

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [{
            "Sid": "EMRServerlessCreateApplicationOperation",
            "Effect": "Allow",
            "Action": "emr-serverless:CreateApplication",
            "Resource": "arn:aws:emr-serverless:*:*:/*",
            "Condition": {
                "StringEquals": {
                    "aws:RequestTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessListApplicationOperation",
            "Effect": "Allow",
            "Action": "emr-serverless:ListApplications",
            "Resource": "arn:aws:emr-serverless:*:*:/*",
            "Condition": {
                "StringEquals": {
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessApplicationOperations",
            "Effect": "Allow",
            "Action": [
                "emr-serverless:UpdateApplication",
                "emr-serverless:GetApplication"
            ],
            "Resource": "arn:aws:emr-serverless:*:*:/applications/*",
            "Condition": {
                "StringEquals": {
                    "aws:ResourceTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessStartJobRunOperation",
            "Effect": "Allow",
            "Action": "emr-serverless:StartJobRun",
            "Resource": "arn:aws:emr-serverless:*:*:/applications/*",
            "Condition": {
                "StringEquals": {
                    "aws:RequestTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessListJobRunOperation",
            "Effect": "Allow",
            "Action": "emr-serverless:ListJobRuns",
            "Resource": "arn:aws:emr-serverless:*:*:/applications/*",
            "Condition": {
                "StringEquals": {
                    "aws:ResourceTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessJobRunOperations",
            "Effect": "Allow",
            "Action": [
                "emr-serverless:GetJobRun",
                "emr-serverless:CancelJobRun"
            ],
            "Resource": "arn:aws:emr-serverless:*:*:/applications/*/jobruns/*",
            "Condition": {
                "StringEquals": {
                    "aws:ResourceTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "EMRServerlessTagResourceOperation",
            "Effect": "Allow",
            "Action": "emr-serverless:TagResource",
            "Resource": "arn:aws:emr-serverless:*:*:/*",
            "Condition": {
                "StringEquals": {
                    "aws:RequestTag/sagemaker:is-canvas-resource": "True",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
        },
        {
            "Sid": "IAMPassOperationForEMRServerless",
            "Effect": "Allow",
            "Action": "iam:PassRole",
            "Resource": "arn:aws:iam::*:role/EMRServerlessRuntimeRole-*",
            "Condition": {
                "StringEquals": {
                    "iam:PassedToService": "emr-serverless.amazonaws.com",
                    "aws:ResourceAccount": "${aws:PrincipalAccount}"
                }
            }
         }
    ]
}
```

------

## Migrasi CreateAuto MLJob ke V2 CreateAuto MLJob
<a name="autopilot-create-experiment-api-migrate-v1-v2"></a>

Kami menyarankan pengguna `CreateAutoMLJob` untuk bermigrasi ke`CreateAutoMLJobV2`.

Bagian ini menjelaskan perbedaan parameter input antara [CreateAutoMLJob](https://docs.aws.amazon.com/sagemaker-api/src/AWSSageMakerAPIDoc/build/server-root/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#API_CreateAutoMLJob_RequestSyntax)dan [CreateAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_RequestSyntax) dengan menyoroti perubahan posisi, nama, atau struktur objek dan atribut permintaan input antara dua versi.
+ **Minta atribut yang tidak berubah antar versi.**

  ```
  {
     "AutoMLJobName": "string",
     "AutoMLJobObjective": { 
        "MetricName": "string"
     },
     "ModelDeployConfig": { 
        "AutoGenerateEndpointName": boolean,
        "EndpointName": "string"
     },
     "OutputDataConfig": { 
        "KmsKeyId": "string",
        "S3OutputPath": "string"
     },
     "RoleArn": "string",
     "Tags": [ 
        { 
           "Key": "string",
           "Value": "string"
        }
     ]
  }
  ```
+ **Minta atribut yang mengubah posisi dan struktur antar versi.**

  Atribut berikut berubah posisi:`DataSplitConfig`,`Security Config`,`CompletionCriteria`,`Mode`,`FeatureSpecificationS3Uri`,`SampleWeightAttributeName`,`TargetAttributeName`.

------
#### [ CreateAutoMLJob ]

  ```
  { 
      "AutoMLJobConfig": { 
          "Mode": "string",
          "CompletionCriteria": { 
              "MaxAutoMLJobRuntimeInSeconds": number,
              "MaxCandidates": number,
              "MaxRuntimePerTrainingJobInSeconds": number
          },
          "DataSplitConfig": { 
              "ValidationFraction": number
          },
          "SecurityConfig": { 
              "EnableInterContainerTrafficEncryption": boolean,
              "VolumeKmsKeyId": "string",
              "VpcConfig": { 
              "SecurityGroupIds": [ "string" ],
              "Subnets": [ "string" ]
              }
          },
          "CandidateGenerationConfig": { 
              "FeatureSpecificationS3Uri": "string"
          }
      },
      "GenerateCandidateDefinitionsOnly": boolean,
      "ProblemType": "string"
  }
  ```

------
#### [ CreateAutoMLJobV2 ]

  ```
  {       
      "AutoMLProblemTypeConfig": {
          "TabularJobConfig": {
              "Mode": "string",
              "ProblemType": "string",
              "GenerateCandidateDefinitionsOnly": boolean,
              "CompletionCriteria": { 
                  "MaxAutoMLJobRuntimeInSeconds": number,
                  "MaxCandidates": number,
                  "MaxRuntimePerTrainingJobInSeconds": number
              },
              "FeatureSpecificationS3Uri": "string",
              "SampleWeightAttributeName": "string",
              "TargetAttributeName": "string"
          }
      },
      "DataSplitConfig": { 
          "ValidationFraction": number
      },
      "SecurityConfig": { 
          "EnableInterContainerTrafficEncryption": boolean,
          "VolumeKmsKeyId": "string",
          "VpcConfig": { 
              "SecurityGroupIds": [ "string" ],
              "Subnets": [ "string" ]
          }
      }
  }
  ```

------
+ **Atribut berikut mengubah posisi dan struktur antar versi.**

  JSON berikut menggambarkan bagaimana Auto [ConfigMLJob. CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobConfig.html#sagemaker-Type-AutoMLJobConfig-CandidateGenerationConfig)dari jenis [Auto MLCandidate GenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidateGenerationConfig.html) pindah ke [Auto MLProblemTypeConfig. TabularJobConfig. CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#API_CreateAutoMLJobV2_RequestSyntax)dari tipe [CandidateGenerationConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CandidateGenerationConfig.html)di V2.

------
#### [ CreateAutoMLJob ]

  ```
  {
     "AutoMLJobConfig": { 
        "CandidateGenerationConfig": { 
           "AlgorithmsConfig": [ 
              { 
                 "AutoMLAlgorithms": [ "string" ]
              }
           ],
           "FeatureSpecificationS3Uri": "string"
        }
  }
  ```

------
#### [ CreateAutoMLJobV2 ]

  ```
  {
      "AutoMLProblemTypeConfig": {
          "TabularJobConfig": {
              "CandidateGenerationConfig": { 
                  "AlgorithmsConfig": [ 
                      { 
                      "AutoMLAlgorithms": [ "string" ]
                      }
                  ],
              },
          }
      },
  }
  ```

------
+ **Minta atribut yang mengubah nama dan struktur.**

  JSON berikut mengilustrasikan bagaimana [InputDataConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJob.html#sagemaker-CreateAutoMLJob-request-InputDataConfig)(Sebuah array [AutoMLChannel) berubah menjadi Auto](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLChannel.html) MLJob InputDataConfig (Sebuah array [Auto MLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateAutoMLJobV2.html#sagemaker-CreateAutoMLJobV2-request-AutoMLJobInputDataConfig) [Channel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobChannel.html)) di V2. Perhatikan bahwa atribut `SampleWeightAttributeName` dan `TargetAttributeName` bergerak keluar `InputDataConfig` dan masuk`AutoMLProblemTypeConfig`.

------
#### [ CreateAutoMLJob ]

  ```
  {    
      "InputDataConfig": [ 
          { 
              "ChannelType": "string",
              "CompressionType": "string",
              "ContentType": "string",
              "DataSource": { 
                  "S3DataSource": { 
                      "S3DataType": "string",
                      "S3Uri": "string"
                  }
              },
              "SampleWeightAttributeName": "string",
              "TargetAttributeName": "string"
          }
      ]
  }
  ```

------
#### [ CreateAutoMLJobV2 ]

  ```
  {    
      "AutoMLJobInputDataConfig": [ 
          { 
              "ChannelType": "string",
              "CompressionType": "string",
              "ContentType": "string",
              "DataSource": { 
                  "S3DataSource": { 
                      "S3DataType": "string",
                      "S3Uri": "string"
                  }
              }
          }
      ]
  }
  ```

------

# Kumpulan data autopilot dan jenis masalah
<a name="autopilot-datasets-problem-types"></a>

Untuk data tabular (yaitu data di mana setiap kolom berisi fitur dengan tipe data tertentu dan setiap baris berisi pengamatan), Autopilot memberi Anda opsi untuk menentukan jenis masalah pembelajaran yang diawasi yang tersedia untuk kandidat model pekerjaan AutoML, seperti klasifikasi biner atau regresi, atau mendeteksinya atas nama Anda berdasarkan data yang Anda berikan. Autopilot juga mendukung berbagai format data dan tipe data.

**Topics**
+ [Kumpulan data autopilot, tipe data, dan format](#autopilot-datasets)
+ [Jenis masalah autopilot](#autopilot-problem-types)

## Kumpulan data autopilot, tipe data, dan format
<a name="autopilot-datasets"></a>

Autopilot mendukung data tabular yang diformat sebagai file CSV atau sebagai file Parket: setiap kolom berisi fitur dengan tipe data tertentu dan setiap baris berisi pengamatan. Properti dari dua format file ini sangat berbeda.
+ **CSV** (comma-separated-values) adalah format file berbasis baris yang menyimpan data dalam teks biasa yang dapat dibaca manusia yang merupakan pilihan populer untuk pertukaran data karena didukung oleh berbagai aplikasi.
+ **Parket** adalah format file berbasis kolom di mana data disimpan dan diproses lebih efisien daripada format file berbasis baris. Ini menjadikannya pilihan yang lebih baik untuk masalah data besar.

**Tipe data** yang diterima untuk kolom termasuk numerik, kategoris, teks, dan deret waktu yang terdiri dari string angka yang dipisahkan koma. [Jika Autopilot mendeteksi itu berurusan dengan urutan **deret waktu**, ia memprosesnya melalui transformator fitur khusus yang disediakan oleh perpustakaan tsfresh.](https://tsfresh.readthedocs.io/en/latest/text/list_of_features.html) Pustaka ini mengambil deret waktu sebagai input dan output fitur seperti nilai absolut tertinggi dari deret waktu atau statistik deskriptif pada autokorelasi. Fitur keluaran ini kemudian digunakan sebagai input ke salah satu dari tiga jenis masalah.

Autopilot mendukung pembuatan model pembelajaran mesin pada kumpulan data besar hingga ratusan. GBs Untuk detail tentang batas sumber daya default untuk kumpulan data input dan cara meningkatkannya, lihat Kuota [Autopilot](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-quotas.html).

## Jenis masalah autopilot
<a name="autopilot-problem-types"></a>

Untuk data tabular, Anda lebih lanjut menentukan jenis masalah pembelajaran yang diawasi yang tersedia untuk kandidat model sebagai berikut:

### Regresi
<a name="autopilot-automate-model-development-problem-types-regression"></a>

Regresi memperkirakan nilai variabel target dependen berdasarkan satu atau lebih variabel atau atribut lain yang berkorelasi dengannya. Contohnya adalah prediksi harga rumah menggunakan fitur seperti jumlah kamar mandi dan kamar tidur, luas persegi rumah dan taman. Analisis regresi dapat membuat model yang mengambil satu atau lebih fitur ini sebagai masukan dan memprediksi harga rumah.

### Klasifikasi biner
<a name="autopilot-automate-model-development-problem-types-binary-classification"></a>

Klasifikasi biner adalah jenis pembelajaran yang diawasi yang menetapkan individu ke salah satu dari dua kelas yang telah ditentukan dan saling eksklusif berdasarkan atribut mereka. Ini diawasi karena model dilatih menggunakan contoh di mana atribut disediakan dengan objek berlabel dengan benar. Diagnosis medis untuk apakah seseorang memiliki penyakit atau tidak berdasarkan hasil tes diagnostik adalah contoh klasifikasi biner.

### Klasifikasi multiclass
<a name="autopilot-automate-model-development-problem-types-multiclass-classification"></a>

Klasifikasi multiclass adalah jenis pembelajaran yang diawasi yang menugaskan seorang individu ke salah satu dari beberapa kelas berdasarkan atributnya. Ini diawasi karena model dilatih menggunakan contoh di mana atribut disediakan dengan objek berlabel dengan benar. Contohnya adalah prediksi topik yang paling relevan dengan dokumen teks. Sebuah dokumen dapat diklasifikasikan sebagai tentang, katakanlah, agama atau politik atau keuangan, atau tentang salah satu dari beberapa kelas topik yang telah ditentukan sebelumnya.

# Mode pelatihan dan dukungan algoritma
<a name="autopilot-model-support-validation"></a>

Autopilot mendukung berbagai mode pelatihan dan algoritma untuk mengatasi masalah pembelajaran mesin, melaporkan metrik kualitas dan objektif, dan menggunakan validasi silang secara otomatis, bila diperlukan.

## Mode pelatihan
<a name="autopilot-training-mode"></a>

SageMaker Autopilot dapat secara otomatis memilih metode pelatihan berdasarkan ukuran dataset, atau Anda dapat memilihnya secara manual. Pilihannya adalah sebagai berikut:
+ **Ensembling** — Autopilot menggunakan [AutoGluon](https://auto.gluon.ai/scoredebugweight/tutorials/tabular_prediction/index.html)perpustakaan untuk melatih beberapa model dasar. Untuk menemukan kombinasi terbaik untuk kumpulan data Anda, mode ansambel menjalankan 10 uji coba dengan pengaturan model dan parameter meta yang berbeda. Kemudian Autopilot menggabungkan model-model ini menggunakan metode ansambel susun untuk membuat model prediktif yang optimal. **Untuk daftar algoritma yang didukung Autopilot dalam mode ensembling untuk data tabular, lihat bagian dukungan Algoritma berikut.**
+ **Optimasi Hyperparameter (HPO)** — Autopilot menemukan versi terbaik dari sebuah model dengan menyetel hyperparameters menggunakan optimasi Bayesian atau optimasi multi-fidelity saat menjalankan pekerjaan pelatihan pada dataset Anda. Mode HPO memilih algoritme yang paling relevan dengan kumpulan data Anda dan memilih rentang hiperparameter terbaik untuk menyetel model Anda. Untuk menyetel model Anda, mode HPO menjalankan hingga 100 uji coba (default) untuk menemukan pengaturan hiperparameter optimal dalam rentang yang dipilih. Jika ukuran dataset Anda kurang dari 100 MB, Autopilot menggunakan optimasi Bayesian. Autopilot memilih optimasi multi-fidelity jika dataset Anda lebih besar dari 100 MB.

  Dalam optimasi multi-fidelity, metrik terus dipancarkan dari wadah pelatihan. Uji coba yang berkinerja buruk terhadap metrik objektif yang dipilih dihentikan lebih awal. Uji coba yang berkinerja baik dialokasikan lebih banyak sumber daya. 

  **Untuk daftar algoritma yang didukung Autopilot dalam mode HPO, lihat bagian dukungan Algoritma berikut.** 
+ **Otomatis** — Autopilot secara otomatis memilih mode ensembling atau mode HPO berdasarkan ukuran dataset Anda. Jika dataset Anda lebih besar dari 100 MB, Autopilot memilih HPO. Jika tidak, ia memilih mode ansambel. Autopilot dapat gagal membaca ukuran kumpulan data Anda dalam kasus berikut.
  + Jika Anda mengaktifkan mode Virtual Private Cloud (VPC), untuk pekerjaan AutoML tetapi bucket S3 yang berisi kumpulan data hanya mengizinkan akses dari VPC.
  + Input [S3 DataType](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLS3DataSource.html#sagemaker-Type-AutoMLS3DataSource-S3DataType) dari dataset Anda adalah a. `ManifestFile`
  + Masukan [S3Uri](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLS3DataSource.html#sagemaker-Type-AutoMLS3DataSource-S3Uri) berisi lebih dari 1000 item.

  Jika Autopilot tidak dapat membaca ukuran dataset Anda, default memilih mode HPO.

**catatan**  
Untuk runtime dan kinerja yang optimal, gunakan mode pelatihan ansambel untuk kumpulan data yang lebih kecil dari 100 MB.

## Dukungan algoritma
<a name="autopilot-algorithm-support"></a>

Dalam **mode HPO**, Autopilot mendukung jenis algoritma pembelajaran mesin berikut:
+  [Linear learner](https://docs.aws.amazon.com/sagemaker/latest/dg/linear-learner.html) — Algoritma pembelajaran yang diawasi yang dapat memecahkan masalah klasifikasi atau regresi.
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html)— Algoritma pembelajaran yang diawasi yang mencoba memprediksi variabel target secara akurat dengan menggabungkan ansambel perkiraan dari serangkaian model yang lebih sederhana dan lebih lemah.
+ Algoritma pembelajaran mendalam — Perceptron multilayer (MLP) dan jaringan saraf tiruan feedforward. Algoritma ini dapat menangani data yang tidak dapat dipisahkan secara linier.

**catatan**  
Anda tidak perlu menentukan algoritma yang akan digunakan untuk masalah pembelajaran mesin Anda. Autopilot secara otomatis memilih algoritma yang sesuai untuk dilatih. 

Dalam **mode ansambel**, Autopilot mendukung jenis algoritma pembelajaran mesin berikut:
+ [LightGBM](https://docs.aws.amazon.com/sagemaker/latest/dg/lightgbm.html) - Kerangka kerja yang dioptimalkan yang menggunakan algoritma berbasis pohon dengan peningkatan gradien. Algoritma ini menggunakan pohon yang tumbuh dalam lebar, bukan kedalaman, dan sangat dioptimalkan untuk kecepatan.
+ [CatBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/catboost.html)— Kerangka kerja yang menggunakan algoritme berbasis pohon dengan peningkatan gradien. Dioptimalkan untuk menangani variabel kategoris.
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html)— Kerangka kerja yang menggunakan algoritme berbasis pohon dengan peningkatan gradien yang tumbuh secara mendalam, bukan luasnya. 
+ [Random Forest](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) — Algoritma berbasis pohon yang menggunakan beberapa pohon keputusan pada sub-sampel acak data dengan penggantian. Pohon-pohon dibagi menjadi simpul optimal di setiap tingkat. Keputusan setiap pohon dirata-ratakan bersama untuk mencegah overfitting dan meningkatkan prediksi.
+ [Extra Trees](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html#sklearn.ensemble.ExtraTreesClassifier) — Algoritma berbasis pohon yang menggunakan beberapa pohon keputusan pada seluruh kumpulan data. Pohon-pohon dibelah secara acak di setiap tingkat. Keputusan setiap pohon dirata-ratakan untuk mencegah overfitting dan untuk meningkatkan prediksi. Pohon tambahan menambahkan tingkat pengacakan dibandingkan dengan algoritma hutan acak.
+ [Model Linear](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model) — Kerangka kerja yang menggunakan persamaan linier untuk memodelkan hubungan antara dua variabel dalam data yang diamati.
+ Obor jaringan saraf — Model jaringan saraf yang diimplementasikan menggunakan [Pytorch](https://pytorch.org/).
+ Neural network fast.ai — Model jaringan saraf yang diimplementasikan menggunakan [fast.ai](https://www.fast.ai/).

# Metrik dan validasi
<a name="autopilot-metrics-validation"></a>

Panduan ini menunjukkan metrik dan teknik validasi yang dapat Anda gunakan untuk mengukur kinerja model pembelajaran mesin. Amazon SageMaker Autopilot menghasilkan metrik yang mengukur kualitas prediktif kandidat model pembelajaran mesin. Metrik yang dihitung untuk kandidat ditentukan menggunakan array [MetricDatum](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_MetricDatum.html)tipe.

## Metrik Autopilot
<a name="autopilot-metrics"></a>

Daftar berikut berisi nama-nama metrik yang saat ini tersedia untuk mengukur kinerja model dalam Autopilot.

**catatan**  
Autopilot mendukung bobot sampel. Untuk mempelajari lebih lanjut tentang bobot sampel dan metrik objektif yang tersedia, lihat. [Metrik tertimbang autopilot](#autopilot-weighted-metrics)

Berikut ini adalah metrik yang tersedia.

**`Accuracy`**  
 Rasio jumlah item yang diklasifikasikan dengan benar dengan jumlah total item yang diklasifikasikan (benar dan salah). Ini digunakan untuk klasifikasi biner dan multiclass. Akurasi mengukur seberapa dekat nilai kelas yang diprediksi dengan nilai aktual. Nilai untuk metrik akurasi bervariasi antara nol (0) dan satu (1). Nilai 1 menunjukkan akurasi sempurna, dan 0 menunjukkan ketidakakuratan sempurna.

**`AUC`**  
 Metrik area under the curve (AUC) digunakan untuk membandingkan dan mengevaluasi klasifikasi biner dengan algoritma yang mengembalikan probabilitas, seperti regresi logistik. Untuk memetakan probabilitas ke dalam klasifikasi, ini dibandingkan dengan nilai ambang batas.   
Kurva yang relevan adalah kurva karakteristik operasi penerima. Kurva memplot tingkat positif sebenarnya (TPR) prediksi (atau recall) terhadap tingkat positif palsu (FPR) sebagai fungsi dari nilai ambang batas, di atasnya prediksi dianggap positif. Meningkatkan ambang menghasilkan lebih sedikit positif palsu, tetapi lebih banyak negatif palsu.   
AUC adalah area di bawah kurva karakteristik operasi penerima ini. Oleh karena itu, AUC memberikan ukuran agregat dari kinerja model di semua ambang batas klasifikasi yang mungkin. Skor AUC bervariasi antara 0 dan 1. Skor 1 menunjukkan akurasi sempurna, dan skor satu setengah (0,5) menunjukkan bahwa prediksi tidak lebih baik daripada pengklasifikasi acak. 

**`BalancedAccuracy`**  
`BalancedAccuracy`adalah metrik yang mengukur rasio prediksi akurat untuk semua prediksi. Rasio ini dihitung setelah menormalkan positif sejati (TP) dan negatif sejati (TN) dengan jumlah total nilai positif (P) dan negatif (N). Ini digunakan dalam klasifikasi biner dan multiclass dan didefinisikan sebagai berikut: 0,5\$1 ((TP/P)\$1(TN/N)), dengan nilai mulai dari 0 hingga 1. `BalancedAccuracy`memberikan ukuran akurasi yang lebih baik ketika jumlah positif atau negatif sangat berbeda satu sama lain dalam kumpulan data yang tidak seimbang, seperti ketika hanya 1% email adalah spam. 

**`F1`**  
`F1`Skor adalah rata-rata harmonik dari presisi dan ingatan, didefinisikan sebagai berikut: F1 = 2 \$1 (presisi \$1 recall)/(presisi \$1 recall). Ini digunakan untuk klasifikasi biner ke dalam kelas yang secara tradisional disebut sebagai positif dan negatif. Prediksi dikatakan benar ketika mereka cocok dengan kelas mereka yang sebenarnya (benar), dan salah ketika tidak.   
Presisi adalah rasio prediksi positif sejati untuk semua prediksi positif, dan itu termasuk positif palsu dalam kumpulan data. Presisi mengukur kualitas prediksi ketika memprediksi kelas positif.   
Ingat (atau sensitivitas) adalah rasio prediksi positif sejati untuk semua contoh positif aktual. Ingat mengukur seberapa lengkap model memprediksi anggota kelas yang sebenarnya dalam kumpulan data.   
Skor F1 bervariasi antara 0 dan 1. Skor 1 menunjukkan kinerja terbaik, dan 0 menunjukkan yang terburuk.

**`F1macro`**  
`F1macro`Skor tersebut menerapkan penilaian F1 untuk masalah klasifikasi multiclass. Hal ini dilakukan dengan menghitung presisi dan recall, dan kemudian mengambil mean harmonik mereka untuk menghitung skor F1 untuk setiap kelas. Terakhir, `F1macro` rata-rata skor individu untuk mendapatkan skor. `F1macro` `F1macro`Skor bervariasi antara 0 dan 1. Skor 1 menunjukkan kinerja terbaik, dan 0 menunjukkan yang terburuk.

**`InferenceLatency`**  
Latensi inferensi adalah perkiraan jumlah waktu antara membuat permintaan untuk prediksi model untuk menerimanya dari titik akhir waktu nyata tempat model digunakan. Metrik ini diukur dalam hitungan detik dan hanya tersedia dalam mode ansambel.

**`LogLoss`**  
Loss log, juga dikenal sebagai cross-entropy loss, adalah metrik yang digunakan untuk mengevaluasi kualitas output probabilitas, bukan output itu sendiri. Ini digunakan dalam klasifikasi biner dan multiclass dan dalam jaring saraf. Ini juga merupakan fungsi biaya untuk regresi logistik. Kehilangan log adalah metrik penting untuk menunjukkan kapan model membuat prediksi yang salah dengan probabilitas tinggi. Nilai berkisar dari 0 hingga tak terbatas. Nilai 0 mewakili model yang memprediksi data dengan sempurna.

**`MAE`**  
Kesalahan absolut rata-rata (MAE) adalah ukuran seberapa berbeda nilai prediksi dan aktual, ketika dirata-ratakan pada semua nilai. MAE biasanya digunakan dalam analisis regresi untuk memahami kesalahan prediksi model. Jika ada regresi linier, MAE mewakili jarak rata-rata dari garis yang diprediksi ke nilai aktual. MAE didefinisikan sebagai jumlah kesalahan absolut dibagi dengan jumlah pengamatan. Nilai berkisar dari 0 hingga tak terhingga, dengan angka yang lebih kecil menunjukkan kecocokan model yang lebih baik dengan data.

**`MSE`**  
Mean squared error (MSE) adalah rata-rata perbedaan kuadrat antara nilai prediksi dan aktual. Ini digunakan untuk regresi. Nilai MSE selalu positif. Semakin baik model dalam memprediksi nilai aktual, semakin kecil nilai MSE.

**`Precision`**  
Presisi mengukur seberapa baik suatu algoritma memprediksi positif sejati (TP) dari semua hal positif yang diidentifikasi. Ini didefinisikan sebagai berikut: Presisi = TP/ (TP\$1FP), dengan nilai mulai dari nol (0) hingga satu (1), dan digunakan dalam klasifikasi biner. Presisi adalah metrik penting ketika biaya positif palsu tinggi. Misalnya, biaya positif palsu sangat tinggi jika sistem keselamatan pesawat secara keliru dianggap aman untuk terbang. Positif palsu (FP) mencerminkan prediksi positif yang sebenarnya negatif dalam data.

**`PrecisionMacro`**  
Makro presisi menghitung presisi untuk masalah klasifikasi multiclass. Ini dilakukan dengan menghitung presisi untuk setiap kelas dan skor rata-rata untuk mendapatkan presisi untuk beberapa kelas. `PrecisionMacro`Skor berkisar dari nol (0) hingga satu (1). Skor yang lebih tinggi mencerminkan kemampuan model untuk memprediksi positif sejati (TP) dari semua positif yang diidentifikasi, dirata-ratakan di beberapa kelas.

**`R2`**  
R 2, juga dikenal sebagai koefisien determinasi, digunakan dalam regresi untuk mengukur seberapa banyak model dapat menjelaskan varians variabel dependen. Nilai berkisar dari satu (1) ke negatif (-1). Angka yang lebih tinggi menunjukkan fraksi yang lebih tinggi dari variabilitas yang dijelaskan. `R2`nilai mendekati nol (0) menunjukkan bahwa sangat sedikit variabel dependen yang dapat dijelaskan oleh model. Nilai negatif menunjukkan kecocokan yang buruk dan bahwa model tersebut dikalahkan oleh fungsi konstan. Untuk regresi linier, ini adalah garis horizontal.

**`Recall`**  
Ingat mengukur seberapa baik algoritme memprediksi dengan benar semua positif sejati (TP) dalam kumpulan data. Positif sejati adalah prediksi positif yang juga merupakan nilai positif aktual dalam data. Recall didefinisikan sebagai berikut: Recall = TP/ (TP\$1FN), dengan nilai mulai dari 0 hingga 1. Skor yang lebih tinggi mencerminkan kemampuan model yang lebih baik untuk memprediksi positif sejati (TP) dalam data. Ini digunakan dalam klasifikasi biner.   
Ingat penting ketika menguji kanker karena digunakan untuk menemukan semua hal positif yang sebenarnya. False negative (FN) mencerminkan prediksi negatif yang sebenarnya positif dalam data. Seringkali tidak cukup untuk mengukur hanya ingatan, karena memprediksi setiap output sebagai positif sejati menghasilkan skor ingatan yang sempurna.

**`RecallMacro`**  
`RecallMacro`Menghitung penarikan kembali untuk masalah klasifikasi multiclass dengan menghitung recall untuk setiap kelas dan skor rata-rata untuk mendapatkan recall untuk beberapa kelas. `RecallMacro`skor berkisar dari 0 hingga 1. Skor yang lebih tinggi mencerminkan kemampuan model untuk memprediksi positif sejati (TP) dalam kumpulan data, sedangkan positif sejati mencerminkan prediksi positif yang juga merupakan nilai positif aktual dalam data. Seringkali tidak cukup untuk mengukur hanya ingatan, karena memprediksi setiap output sebagai positif sejati akan menghasilkan skor ingatan yang sempurna.

**`RMSE`**  
Kesalahan kuadrat rata-rata akar (RMSE) mengukur akar kuadrat dari perbedaan kuadrat antara nilai prediksi dan aktual, dan dirata-ratakan pada semua nilai. Ini digunakan dalam analisis regresi untuk memahami kesalahan prediksi model. Ini adalah metrik penting untuk menunjukkan adanya kesalahan model besar dan outlier. Nilai berkisar dari nol (0) hingga tak terhingga, dengan angka yang lebih kecil menunjukkan kecocokan model yang lebih baik dengan data. RMSE tergantung pada skala, dan tidak boleh digunakan untuk membandingkan kumpulan data dengan ukuran yang berbeda.

Metrik yang dihitung secara otomatis untuk kandidat model ditentukan oleh jenis masalah yang ditangani.

Lihat [dokumentasi referensi Amazon SageMaker API](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobObjective.html) untuk daftar metrik yang tersedia yang didukung oleh Autopilot.

## Metrik tertimbang autopilot
<a name="autopilot-weighted-metrics"></a>

**catatan**  
Autopilot mendukung bobot sampel dalam mode ansambel hanya untuk semua [metrik yang tersedia](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-metrics-validation.html#autopilot-metrics) dengan pengecualian dan. `Balanced Accuracy` `InferenceLatency` `BalanceAccuracy`dilengkapi dengan skema pembobotannya sendiri untuk kumpulan data yang tidak seimbang yang tidak memerlukan bobot sampel. `InferenceLatency`tidak mendukung bobot sampel. Baik objektif `Balanced Accuracy` maupun `InferenceLatency` metrik mengabaikan bobot sampel yang ada saat melatih dan mengevaluasi model.

Pengguna dapat menambahkan kolom bobot sampel ke data mereka untuk memastikan bahwa setiap pengamatan yang digunakan untuk melatih model pembelajaran mesin diberi bobot yang sesuai dengan persepsi pentingnya model. Ini sangat berguna dalam skenario di mana pengamatan dalam kumpulan data memiliki berbagai tingkat kepentingan, atau di mana kumpulan data berisi jumlah sampel yang tidak proporsional dari satu kelas dibandingkan dengan yang lain. Menetapkan bobot untuk setiap pengamatan berdasarkan pentingnya atau kepentingan yang lebih besar bagi kelas minoritas dapat membantu kinerja keseluruhan model, atau memastikan bahwa model tidak bias terhadap kelas mayoritas.

Untuk informasi tentang cara meneruskan bobot sampel saat membuat eksperimen di UI Studio Classic, lihat *Langkah 7* di [Membuat eksperimen Autopilot](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-automate-model-development-create-experiment.html) menggunakan Studio Classic. 

[Untuk informasi tentang cara meneruskan bobot sampel secara terprogram saat membuat eksperimen Autopilot menggunakan API, lihat *Cara menambahkan bobot sampel ke pekerjaan AutoML di Membuat eksperimen Autopilot secara* terprogram.](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-automate-model-development-create-experiment.html)

## Validasi silang di Autopilot
<a name="autopilot-cross-validation"></a>

Validasi silang digunakan untuk mengurangi overfitting dan bias dalam pemilihan model. Hal ini juga digunakan untuk menilai seberapa baik model dapat memprediksi nilai-nilai dari dataset validasi yang tak terlihat, jika dataset validasi diambil dari populasi yang sama. Metode ini sangat penting saat melatih kumpulan data yang memiliki jumlah instance pelatihan terbatas. 

Autopilot menggunakan validasi silang untuk membangun model dalam optimasi hyperparameter (HPO) dan mode pelatihan ensemble. Langkah pertama dalam proses validasi silang Autopilot adalah membagi data menjadi k-folds.

### Pemisahan K-lipat
<a name="autopilot-cross-validation-kfold"></a>

K-fold splitting adalah metode yang memisahkan dataset pelatihan input menjadi beberapa kumpulan data pelatihan dan validasi. Dataset dibagi menjadi sub-sampel `k` berukuran sama yang disebut lipatan. Model kemudian dilatih pada `k-1` lipatan dan diuji terhadap lipatan k th yang tersisa, yang merupakan kumpulan data validasi. Proses ini diulang `k` kali menggunakan kumpulan data yang berbeda untuk validasi. 

Gambar berikut menggambarkan pemisahan k-fold dengan k = 4 lipatan. Setiap lipatan direpresentasikan sebagai baris. Kotak berwarna gelap mewakili bagian-bagian dari data yang digunakan dalam pelatihan. Kotak berwarna terang yang tersisa menunjukkan kumpulan data validasi. 

![\[Pemisahan K-fold dengan 4 lipatan digambarkan sebagai kotak: gelap untuk data yang digunakan; terang untuk kumpulan data validasi.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-metrics-kfold-splits.png)


Autopilot menggunakan validasi silang k-fold untuk mode optimasi hiperparameter (HPO) dan mode ansambel.

Anda dapat menerapkan model Autopilot yang dibuat menggunakan validasi silang seperti yang Anda lakukan dengan model Autopilot atau AI lainnya. SageMaker 

### Modus HPO
<a name="autopilot-cross-validation-hpo"></a>

Validasi silang K-fold menggunakan metode pemisahan k-fold untuk validasi silang. Dalam mode HPO, Autopilot secara otomatis mengimplementasikan validasi silang k-fold untuk kumpulan data kecil dengan 50.000 instans pelatihan atau lebih sedikit. Melakukan validasi silang sangat penting saat melatih kumpulan data kecil karena melindungi terhadap overfitting dan bias seleksi. 

Mode HPO menggunakan nilai *k* 5 pada masing-masing algoritma kandidat yang digunakan untuk memodelkan dataset. Beberapa model dilatih pada split yang berbeda, dan model disimpan secara terpisah. Ketika pelatihan selesai, metrik validasi untuk masing-masing model dirata-ratakan untuk menghasilkan metrik estimasi tunggal. Terakhir, Autopilot menggabungkan model dari uji coba dengan metrik validasi terbaik ke dalam model ansambel. Autopilot menggunakan model ansambel ini untuk membuat prediksi.

Metrik validasi untuk model yang dilatih oleh Autopilot disajikan sebagai metrik objektif di papan peringkat model. Autopilot menggunakan metrik validasi default untuk setiap jenis masalah yang ditangani, kecuali jika Anda menentukan sebaliknya. Untuk daftar semua metrik yang digunakan Autopilot, lihat. [Metrik Autopilot](#autopilot-metrics)

Misalnya, [dataset Perumahan Boston](http://lib.stat.cmu.edu/datasets/boston) hanya berisi 861 sampel. Jika Anda membangun model untuk memprediksi harga jual rumah menggunakan dataset ini tanpa validasi silang, Anda berisiko melatih dataset yang tidak mewakili stok perumahan Boston. Jika Anda membagi data hanya sekali menjadi subset pelatihan dan validasi, lipatan pelatihan mungkin hanya berisi data terutama dari pinggiran kota. Akibatnya, Anda akan melatih data yang tidak mewakili seluruh kota. Dalam contoh ini, model Anda kemungkinan akan terlalu cocok dengan pilihan bias ini. Validasi silang K-fold dapat mengurangi risiko kesalahan semacam ini dengan memanfaatkan data yang tersedia secara penuh dan acak untuk pelatihan dan validasi.

Validasi silang dapat meningkatkan waktu pelatihan rata-rata 20%. Waktu pelatihan juga dapat meningkat secara signifikan untuk kumpulan data yang kompleks.

**catatan**  
Dalam mode HPO, Anda dapat melihat metrik pelatihan dan validasi dari setiap lipatan di Log Anda. `/aws/sagemaker/TrainingJobs` CloudWatch Untuk informasi selengkapnya tentang CloudWatch Log, lihat[CloudWatch Log untuk Amazon SageMaker AI](logging-cloudwatch.md). 

### Mode ansambel
<a name="autopilot-cross-validation-ensemble"></a>

**catatan**  
Autopilot mendukung bobot sampel dalam mode ansambel. Untuk daftar metrik yang tersedia yang mendukung bobot sampel, lihat. [Metrik Autopilot](#autopilot-metrics)

Dalam mode ansambel, validasi silang dilakukan terlepas dari ukuran kumpulan data. Pelanggan dapat menyediakan kumpulan data validasi dan rasio pemisahan data khusus mereka sendiri, atau membiarkan Autopilot membagi kumpulan data secara otomatis menjadi rasio pemisahan 80-20%. Data pelatihan kemudian dibagi menjadi `k` -lipatan untuk validasi silang, di mana nilai `k` ditentukan oleh mesin. AutoGluon Sebuah ansambel terdiri dari beberapa model pembelajaran mesin, di mana setiap model dikenal sebagai model dasar. Model dasar tunggal dilatih pada (`k`-1) lipatan dan membuat out-of-fold prediksi pada lipatan yang tersisa. Proses ini diulang untuk semua `k` lipatan, dan prediksi out-of-fold (OOF) digabungkan untuk membentuk satu set prediksi. Semua model dasar dalam ansambel mengikuti proses yang sama untuk menghasilkan prediksi OOF.

Gambar berikut menggambarkan validasi k-fold dengan `k` = 4 lipatan. Setiap lipatan direpresentasikan sebagai baris. Kotak berwarna gelap mewakili bagian-bagian dari data yang digunakan dalam pelatihan. Kotak berwarna terang yang tersisa menunjukkan kumpulan data validasi. 

Di bagian atas gambar, di setiap lipatan, model dasar pertama membuat prediksi pada kumpulan data validasi setelah pelatihan pada kumpulan data pelatihan. Pada setiap lipatan berikutnya, kumpulan data mengubah peran. Dataset yang sebelumnya digunakan untuk pelatihan sekarang digunakan untuk validasi, dan ini juga berlaku secara terbalik. Pada akhir `k` lipatan, semua prediksi digabungkan untuk membentuk satu set prediksi yang disebut prediksi (OOF). out-of-fold Proses ini diulang untuk setiap model `n` dasar.

![\[validasi k-fold: Empat baris kotak menggambarkan 4 lipatan yang menghasilkan deretan prediksi OOF.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-metrics-kfold.PNG)


Prediksi OOF untuk setiap model dasar kemudian digunakan sebagai fitur untuk melatih model susun. Model susun mempelajari bobot penting untuk setiap model dasar. Bobot ini digunakan untuk menggabungkan prediksi OOF untuk membentuk prediksi akhir. Kinerja pada dataset validasi menentukan basis atau model susun mana yang terbaik, dan model ini dikembalikan sebagai model akhir.

Dalam mode ansambel, Anda dapat menyediakan kumpulan data validasi Anda sendiri atau membiarkan Autopilot membagi kumpulan data input secara otomatis menjadi kumpulan data 80% dan kumpulan data validasi 20%. Data pelatihan kemudian dibagi menjadi `k` -lipatan untuk validasi silang dan menghasilkan prediksi OOF dan model dasar untuk setiap lipatan.

Prediksi OOF ini digunakan sebagai fitur untuk melatih model susun, yang secara bersamaan mempelajari bobot untuk setiap model dasar. Bobot ini digunakan untuk menggabungkan prediksi OOF untuk membentuk prediksi akhir. Kumpulan data validasi untuk setiap lipatan digunakan untuk penyetelan hiperparameter dari semua model dasar dan model susun. Kinerja pada kumpulan data validasi menentukan model basis atau susun mana yang merupakan model terbaik, dan model ini dikembalikan sebagai model akhir.

# Penyebaran dan prediksi model autopilot
<a name="autopilot-deploy-models"></a>

Panduan SageMaker Autopilot Amazon ini mencakup langkah-langkah untuk penerapan model, menyiapkan inferensi waktu nyata, dan menjalankan inferensi dengan pekerjaan batch. 

Setelah Anda melatih model Autopilot Anda, Anda dapat menerapkannya untuk mendapatkan prediksi dengan salah satu dari dua cara:

1. Gunakan [Terapkan model untuk inferensi waktu nyata](autopilot-deploy-models-realtime.md) untuk mengatur titik akhir dan mendapatkan prediksi secara interaktif. Inferensi waktu nyata ideal untuk beban kerja inferensi di mana Anda memiliki persyaratan waktu nyata, interaktif, dan latensi rendah.

1. Gunakan [Jalankan pekerjaan inferensi batch](autopilot-deploy-models-batch.md) untuk membuat prediksi secara paralel pada batch pengamatan pada seluruh kumpulan data. Inferensi Batch adalah pilihan yang baik untuk kumpulan data besar atau jika Anda tidak memerlukan respons langsung terhadap permintaan prediksi model.

**catatan**  
Untuk menghindari biaya yang tidak perlu: Setelah titik akhir dan sumber daya yang dibuat dari penerapan model tidak lagi diperlukan, Anda dapat menghapusnya. Untuk informasi tentang penetapan harga instans menurut Wilayah, lihat [ SageMaker Harga Amazon](https://aws.amazon.com/sagemaker/pricing/).

# Terapkan model untuk inferensi waktu nyata
<a name="autopilot-deploy-models-realtime"></a>

Inferensi waktu nyata ideal untuk beban kerja inferensi di mana Anda memiliki persyaratan waktu nyata, interaktif, dan latensi rendah. Bagian ini menunjukkan bagaimana Anda dapat menggunakan inferensi waktu nyata untuk mendapatkan prediksi secara interaktif dari model Anda.

Untuk menerapkan model yang menghasilkan metrik validasi terbaik dalam eksperimen Autopilot, Anda memiliki beberapa opsi. Misalnya, saat menggunakan Autopilot di SageMaker Studio Classic, Anda dapat menerapkan model secara otomatis atau manual. Anda juga dapat menggunakan SageMaker APIs untuk menyebarkan model Autopilot secara manual. 

Tab berikut menunjukkan tiga opsi untuk menerapkan model Anda. Instruksi ini mengasumsikan bahwa Anda telah membuat model di Autopilot. Jika Anda tidak memiliki model, lihat[Membuat Pekerjaan Regresi atau Klasifikasi untuk Data Tabular Menggunakan AutoML API](autopilot-automate-model-development-create-experiment.md). Untuk melihat contoh untuk setiap opsi, buka setiap tab.

## Terapkan menggunakan Antarmuka Pengguna Autopilot (UI)
<a name="autopilot-deploy-models-realtime-ui"></a>

UI Autopilot berisi menu tarik-turun yang bermanfaat, sakelar, tooltips, dan lainnya untuk membantu Anda menavigasi penerapan model. Anda dapat menggunakan salah satu dari prosedur berikut: Otomatis atau Manual.
+ **Automatic Deployment**: Untuk secara otomatis menerapkan model terbaik dari eksperimen Autopilot ke titik akhir

  1. [Buat eksperimen](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-automate-model-development-create-experiment.html) di SageMaker Studio Classic. 

  1. **Alihkan nilai **penerapan Otomatis ke Ya**.**
**catatan**  
**Penerapan otomatis akan gagal jika kuota sumber daya default atau kuota pelanggan Anda untuk instans titik akhir di Wilayah terlalu terbatas.** Dalam mode optimasi hyperparameter (HPO), Anda harus memiliki setidaknya dua instance ml.m5.2xlarge. Dalam mode ensembling, Anda harus memiliki setidaknya satu instance ml.m5.12xlarge. Jika Anda mengalami kegagalan terkait kuota, Anda dapat [meminta peningkatan batas layanan untuk instance](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html) titik akhir SageMaker AI.
+ **Penerapan Manual**: Untuk menerapkan model terbaik secara manual dari eksperimen Autopilot ke titik akhir

  1. [Buat eksperimen](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-automate-model-development-create-experiment.html) di SageMaker Studio Classic. 

  1. **Alihkan nilai **Auto deploy ke No**.** 

  1. Pilih model yang ingin Anda gunakan di bawah **Nama model**.

  1. Pilih tombol **Deployment dan pengaturan lanjutan** berwarna oranye yang terletak di sebelah kanan papan peringkat. Ini membuka tab baru.

  1. Konfigurasikan nama titik akhir, jenis instance, dan informasi opsional lainnya.

  1.  Pilih **model Deploy** oranye untuk menyebarkan ke titik akhir.

  1. Periksa kemajuan proses pembuatan titik akhir di bagian [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)dengan menavigasi ke bagian Endpoints. Bagian itu terletak di menu tarik-turun **Inferensi** di panel navigasi. 

  1. Setelah status endpoint berubah dari **Creating** menjadi **InService**, seperti yang ditunjukkan di bawah ini, kembali ke Studio Classic dan panggil endpoint.  
![\[SageMaker Konsol AI: Halaman titik akhir untuk membuat titik akhir atau memeriksa status titik akhir.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-check-progress.PNG)

## Menyebarkan menggunakan SageMaker APIs
<a name="autopilot-deploy-models-api"></a>

Anda juga dapat memperoleh inferensi real-time dengan menerapkan model Anda menggunakan panggilan **API**. Bagian ini menunjukkan lima langkah proses ini menggunakan AWS Command Line Interface (AWS CLI) cuplikan kode. 

Untuk contoh kode lengkap untuk kedua AWS CLI perintah dan AWS SDK untuk Python (boto3), buka tab langsung mengikuti langkah-langkah ini.

1. **Dapatkan definisi kandidat**

   Dapatkan definisi wadah kandidat dari [InferenceContainers](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidate.html#sagemaker-Type-AutoMLCandidate-InferenceContainers). Definisi kandidat ini digunakan untuk membuat model SageMaker AI. 

   Contoh berikut menggunakan [DescribeAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html)API untuk mendapatkan definisi kandidat untuk kandidat model terbaik. Lihat AWS CLI perintah berikut sebagai contoh.

   ```
   aws sagemaker describe-auto-ml-job --auto-ml-job-name <job-name> --region <region>
   ```

1. **Daftar kandidat**

   Contoh berikut menggunakan [ListCandidatesForAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListCandidatesForAutoMLJob.html)API untuk mencantumkan semua kandidat. Lihat AWS CLI perintah berikut sebagai contoh.

   ```
   aws sagemaker list-candidates-for-auto-ml-job --auto-ml-job-name <job-name> --region <region>
   ```

1. **Buat model SageMaker AI**

   Gunakan definisi container dari langkah sebelumnya untuk membuat model SageMaker AI dengan menggunakan [CreateModel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html)API. Lihat AWS CLI perintah berikut sebagai contoh.

   ```
   aws sagemaker create-model --model-name '<your-custom-model-name>' \
                       --containers ['<container-definition1>, <container-definition2>, <container-definition3>]' \
                       --execution-role-arn '<execution-role-arn>' --region '<region>
   ```

1. **Buat konfigurasi titik akhir** 

   Contoh berikut menggunakan [CreateEndpointConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html)API untuk membuat konfigurasi endpoint. Lihat AWS CLI perintah berikut sebagai contoh.

   ```
   aws sagemaker create-endpoint-config --endpoint-config-name '<your-custom-endpoint-config-name>' \
                       --production-variants '<list-of-production-variants>' \
                       --region '<region>'
   ```

1. **Buat titik akhir** 

    AWS CLI Contoh berikut menggunakan [CreateEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html)API untuk membuat titik akhir.

   ```
   aws sagemaker create-endpoint --endpoint-name '<your-custom-endpoint-name>' \
                       --endpoint-config-name '<endpoint-config-name-you-just-created>' \
                       --region '<region>'
   ```

   Periksa kemajuan penerapan titik akhir Anda dengan menggunakan API. [DescribeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeEndpoint.html) Lihat AWS CLI perintah berikut sebagai contoh.

   ```
   aws sagemaker describe-endpoint —endpoint-name '<endpoint-name>' —region <region>
   ```

   Setelah `EndpointStatus` perubahan`InService`, titik akhir siap digunakan untuk inferensi waktu nyata.

1. **Memanggil titik akhir** 

   Struktur perintah berikut memanggil titik akhir untuk inferensi real-time.

   ```
   aws sagemaker invoke-endpoint --endpoint-name '<endpoint-name>' \ 
                     --region '<region>' --body '<your-data>' [--content-type] '<content-type>' <outfile>
   ```

Tab berikut berisi contoh kode lengkap untuk menerapkan model dengan AWS SDK untuk Python (boto3) atau file. AWS CLI

------
#### [ AWS SDK for Python (boto3) ]

1. **Dapatkan definisi kandidat** dengan menggunakan contoh kode berikut.

   ```
   import sagemaker 
   import boto3
   
   session = sagemaker.session.Session()
   
   sagemaker_client = boto3.client('sagemaker', region_name='us-west-2')
   job_name = 'test-auto-ml-job'
   
   describe_response = sm_client.describe_auto_ml_job(AutoMLJobName=job_name)
   # extract the best candidate definition from DescribeAutoMLJob response
   best_candidate = describe_response['BestCandidate']
   # extract the InferenceContainers definition from the caandidate definition
   inference_containers = best_candidate['InferenceContainers']
   ```

1. **Buat model** dengan menggunakan contoh kode berikut.

   ```
   # Create Model
   model_name = 'test-model' 
   sagemaker_role = 'arn:aws:iam:444455556666:role/sagemaker-execution-role'
   create_model_response = sagemaker_client.create_model(
      ModelName = model_name,
      ExecutionRoleArn = sagemaker_role,
      Containers = inference_containers 
   )
   ```

1. **Buat konfigurasi endpoint** dengan menggunakan contoh kode berikut.

   ```
   endpoint_config_name = 'test-endpoint-config'
                                                           
   instance_type = 'ml.m5.2xlarge' 
   # for all supported instance types, see 
   # https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProductionVariant.html#sagemaker-Type-ProductionVariant-InstanceType    # Create endpoint config
   
   endpoint_config_response = sagemaker_client.create_endpoint_config(
      EndpointConfigName=endpoint_config_name, 
      ProductionVariants=[
          {
              "VariantName": "variant1",
              "ModelName": model_name, 
              "InstanceType": instance_type,
              "InitialInstanceCount": 1
          }
      ]
   )
   
   print(f"Created EndpointConfig: {endpoint_config_response['EndpointConfigArn']}")
   ```

1. **Buat titik akhir** dan gunakan model dengan contoh kode berikut.

   ```
   # create endpoint and deploy the model
   endpoint_name = 'test-endpoint'
   create_endpoint_response = sagemaker_client.create_endpoint(
                                               EndpointName=endpoint_name, 
                                               EndpointConfigName=endpoint_config_name)
   print(create_endpoint_response)
   ```

   **Periksa status pembuatan titik akhir** dengan menggunakan contoh kode berikut.

   ```
   # describe endpoint creation status
   status = sagemaker_client.describe_endpoint(EndpointName=endpoint_name)["EndpointStatus"]
   ```

1. **Memanggil endpoint** untuk inferensi real-time dengan menggunakan struktur perintah berikut.

   ```
   # once endpoint status is InService, you can invoke the endpoint for inferencing
   if status == "InService":
     sm_runtime = boto3.Session().client('sagemaker-runtime')
     inference_result = sm_runtime.invoke_endpoint(EndpointName='test-endpoint', ContentType='text/csv', Body='1,2,3,4,class')
   ```

------
#### [ AWS Command Line Interface (AWS CLI) ]

1. **Dapatkan definisi kandidat** dengan menggunakan contoh kode berikut.

   ```
   aws sagemaker describe-auto-ml-job --auto-ml-job-name 'test-automl-job' --region us-west-2
   ```

1. **Buat model** dengan menggunakan contoh kode berikut.

   ```
   aws sagemaker create-model --model-name 'test-sagemaker-model'
   --containers '[{
       "Image": "348316444620.dkr.ecr.us-west-2.amazonaws.com/sagemaker-sklearn-automl:2.5-1-cpu-py3", amzn-s3-demo-bucket1
       "ModelDataUrl": "s3://amzn-s3-demo-bucket/output/model.tar.gz",
       "Environment": {
           "AUTOML_SPARSE_ENCODE_RECORDIO_PROTOBUF": "1",
           "AUTOML_TRANSFORM_MODE": "feature-transform",
           "SAGEMAKER_DEFAULT_INVOCATIONS_ACCEPT": "application/x-recordio-protobuf",
           "SAGEMAKER_PROGRAM": "sagemaker_serve",
           "SAGEMAKER_SUBMIT_DIRECTORY": "/opt/ml/model/code"
       }
   }, {
       "Image": "348316444620.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.3-1-cpu-py3",
       "ModelDataUrl": "s3://amzn-s3-demo-bucket/output/model.tar.gz",
       "Environment": {
           "MAX_CONTENT_LENGTH": "20971520",
           "SAGEMAKER_DEFAULT_INVOCATIONS_ACCEPT": "text/csv",
           "SAGEMAKER_INFERENCE_OUTPUT": "predicted_label", 
           "SAGEMAKER_INFERENCE_SUPPORTED": "predicted_label,probability,probabilities" 
       }
   }, {
       "Image": "348316444620.dkr.ecr.us-west-2.amazonaws.com/sagemaker-sklearn-automl:2.5-1-cpu-py3", aws-region
       "ModelDataUrl": "s3://amzn-s3-demo-bucket/output/model.tar.gz", 
       "Environment": { 
           "AUTOML_TRANSFORM_MODE": "inverse-label-transform", 
           "SAGEMAKER_DEFAULT_INVOCATIONS_ACCEPT": "text/csv", 
           "SAGEMAKER_INFERENCE_INPUT": "predicted_label", 
           "SAGEMAKER_INFERENCE_OUTPUT": "predicted_label", 
           "SAGEMAKER_INFERENCE_SUPPORTED": "predicted_label,probability,labels,probabilities", 
           "SAGEMAKER_PROGRAM": "sagemaker_serve", 
           "SAGEMAKER_SUBMIT_DIRECTORY": "/opt/ml/model/code"
       } 
   }]' \
   --execution-role-arn 'arn:aws:iam::1234567890:role/sagemaker-execution-role' \ 
   --region 'us-west-2'
   ```

   Untuk detail tambahan, lihat [membuat model](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/sagemaker/create-model.html).

   `create model`Perintah akan mengembalikan respons dalam format berikut.

   ```
   {
       "ModelArn": "arn:aws:sagemaker:us-west-2:1234567890:model/test-sagemaker-model"
   }
   ```

1. **Buat konfigurasi endpoint** dengan menggunakan contoh kode berikut.

   ```
   aws sagemaker create-endpoint-config --endpoint-config-name 'test-endpoint-config' \
   --production-variants '[{"VariantName": "variant1", 
                           "ModelName": "test-sagemaker-model",
                           "InitialInstanceCount": 1,
                           "InstanceType": "ml.m5.2xlarge"
                          }]' \
   --region us-west-2
   ```

   Perintah `create endpoint` konfigurasi akan mengembalikan respons dalam format berikut.

   ```
   {
       "EndpointConfigArn": "arn:aws:sagemaker:us-west-2:1234567890:endpoint-config/test-endpoint-config"
   }
   ```

1. **Buat endpoint** dengan menggunakan contoh kode berikut.

   ```
   aws sagemaker create-endpoint --endpoint-name 'test-endpoint' \    
   --endpoint-config-name 'test-endpoint-config' \                 
   --region us-west-2
   ```

   `create endpoint`Perintah akan mengembalikan respons dalam format berikut.

   ```
   {
       "EndpointArn": "arn:aws:sagemaker:us-west-2:1234567890:endpoint/test-endpoint"
   }
   ```

   Periksa kemajuan penerapan titik akhir dengan menggunakan contoh kode CLI [describe-endpoint](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/describe-endpoint.html) berikut.

   ```
   aws sagemaker describe-endpoint --endpoint-name 'test-endpoint' --region us-west-2
   ```

   Pemeriksaan kemajuan sebelumnya akan mengembalikan respons dalam format berikut.

   ```
   {
       "EndpointName": "test-endpoint",
       "EndpointArn": "arn:aws:sagemaker:us-west-2:1234567890:endpoint/test-endpoint",
       "EndpointConfigName": "test-endpoint-config",
       "EndpointStatus": "Creating",
       "CreationTime": 1660251167.595,
       "LastModifiedTime": 1660251167.595
   }
   ```

   Setelah `EndpointStatus` perubahan`InService`, titik akhir siap digunakan dalam inferensi waktu nyata.

1. **Memanggil endpoint** untuk inferensi real-time dengan menggunakan struktur perintah berikut.

   ```
   aws sagemaker-runtime invoke-endpoint --endpoint-name 'test-endpoint' \
   --region 'us-west-2' \
   --body '1,51,3.5,1.4,0.2' \
   --content-type 'text/csv' \
   '/tmp/inference_output'
   ```

   Untuk opsi lainnya, lihat [menjalankan titik akhir](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/sagemaker-runtime/invoke-endpoint.html).

------

## Terapkan model dari akun yang berbeda
<a name="autopilot-deploy-models-realtime-across-accounts"></a>

Anda dapat menerapkan model Autopilot dari akun yang berbeda dari akun asli tempat model dibuat. Untuk menerapkan penerapan model lintas akun, bagian ini menunjukkan cara melakukan hal berikut:   Berikan izin untuk mengambil peran ke akun yang ingin Anda gunakan (akun pembuat).    Lakukan panggilan ke `DescribeAutoMLJob` dari akun penyebaran untuk mendapatkan informasi model.    Berikan hak akses ke artefak model dari akun pembuat.    

1. **Berikan izin ke akun penerapan** 

   Untuk mengambil peran dalam akun pembangkit, Anda harus memberikan izin ke akun penyebaran. Ini memungkinkan akun penyebaran untuk menjelaskan pekerjaan Autopilot di akun pembangkit.

   Contoh berikut menggunakan akun penghasil dengan `sagemaker-role` entitas tepercaya. Contoh menunjukkan cara memberikan akun penerapan dengan izin ID 111122223333 untuk mengambil peran akun pembangkit.

   ```
   "Statement": [
           {
               "Effect": "Allow",
               "Principal": {
                   "Service": [
                       "sagemaker.amazonaws.com"
                   ],
                   "AWS": [ "111122223333"]
               },
               "Action": "sts:AssumeRole"
           }
   ```

   Akun baru dengan ID 111122223333 sekarang dapat mengambil peran untuk akun pembangkit. 

   Selanjutnya, panggil `DescribeAutoMLJob` API dari akun penerapan untuk mendapatkan deskripsi pekerjaan yang dibuat oleh akun pembuat. 

   Contoh kode berikut menjelaskan model dari akun penyebaran.

   ```
   import sagemaker 
   import boto3
   session = sagemaker.session.Session()
   
   sts_client = boto3.client('sts')
   sts_client.assume_role
   
   role = 'arn:aws:iam::111122223333:role/sagemaker-role'
   role_session_name = "role-session-name"
   _assumed_role = sts_client.assume_role(RoleArn=role, RoleSessionName=role_session_name)
   
   credentials = _assumed_role["Credentials"]
   access_key = credentials["AccessKeyId"]
   secret_key = credentials["SecretAccessKey"]
   session_token = credentials["SessionToken"]
   
   session = boto3.session.Session()
           
   sm_client = session.client('sagemaker', region_name='us-west-2', 
                              aws_access_key_id=access_key,
                               aws_secret_access_key=secret_key,
                               aws_session_token=session_token)
   
   # now you can call describe automl job created in account A 
   
   job_name = "test-job"
   response= sm_client.describe_auto_ml_job(AutoMLJobName=job_name)
   ```

1. **Berikan akses ke akun penyebaran** ke artefak model di akun pembangkit.

   Akun penerapan hanya memerlukan akses ke artefak model di akun pembuat untuk menerapkannya. Ini terletak di [S3 OutputPath](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html#sagemaker-Type-AutoMLOutputDataConfig-S3OutputPath) yang ditentukan dalam panggilan `CreateAutoMLJob` API asli selama pembuatan model.

   Untuk memberikan akses akun penyebaran ke artefak model, pilih salah satu opsi berikut:

   1. [Berikan akses](https://aws.amazon.com/premiumsupport/knowledge-center/cross-account-access-s3/) ke `ModelDataUrl` dari akun pembangkit ke akun penyebaran.

      Selanjutnya, Anda perlu memberikan izin akun penerapan untuk mengambil peran tersebut. ikuti langkah-langkah [inferensi waktu nyata](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-deploy-models.html#autopilot-deploy-models-realtime) untuk menerapkan. 

   1. [Salin artefak model](https://aws.amazon.com/premiumsupport/knowledge-center/copy-s3-objects-account/) dari [S3](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLOutputDataConfig.html#sagemaker-Type-AutoMLOutputDataConfig-S3OutputPath) asli akun pembuat OutputPath ke akun pembuat.

      Untuk memberikan akses ke artefak model, Anda harus menentukan `best_candidate` model dan menetapkan ulang wadah model ke akun baru. 

      Contoh berikut menunjukkan bagaimana mendefinisikan `best_candidate` model dan menetapkan kembali. `ModelDataUrl`

      ```
      best_candidate = automl.describe_auto_ml_job()['BestCandidate']
      
      # reassigning ModelDataUrl for best_candidate containers below
      new_model_locations = ['new-container-1-ModelDataUrl', 'new-container-2-ModelDataUrl', 'new-container-3-ModelDataUrl']
      new_model_locations_index = 0
      for container in best_candidate['InferenceContainers']:
          container['ModelDataUrl'] = new_model_locations[new_model_locations_index++]
      ```

      Setelah penugasan kontainer ini, ikuti langkah-langkah [Menyebarkan menggunakan SageMaker APIs](#autopilot-deploy-models-api) untuk menerapkan.

Untuk membuat payload dalam inferensi real-time, lihat contoh notebook untuk [menentukan payload pengujian](https://aws.amazon.com/getting-started/hands-on/machine-learning-tutorial-automatically-create-models). Untuk membuat payload dari file CSV dan menjalankan endpoint, lihat bagian **Predict with your model di [Create a machine](https://aws.amazon.com/getting-started/hands-on/create-machine-learning-model-automatically-sagemaker-autopilot/#autopilot-cr-room) learning model** secara otomatis.

# Jalankan pekerjaan inferensi batch
<a name="autopilot-deploy-models-batch"></a>

Batch inferencing, juga dikenal sebagai inferensi offline, menghasilkan prediksi model pada batch pengamatan. Inferensi Batch adalah pilihan yang baik untuk kumpulan data besar atau jika Anda tidak memerlukan respons langsung terhadap permintaan prediksi model. Sebaliknya, inferensi online (inferensi [waktu nyata](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-deploy-models.html#autopilot-deploy-models-realtime)) menghasilkan prediksi secara real time. Anda dapat membuat kesimpulan batch dari model Autopilot menggunakan [SageMaker Python SDK, antarmuka pengguna Autopilot (UI), SDK AWS](https://sagemaker.readthedocs.io/en/stable/) [untuk](https://aws.amazon.com/sdk-for-python/) Python (boto3), atau (). AWS Command Line Interface [AWS CLI](https://docs.aws.amazon.com/cli/)

Tab berikut menampilkan tiga opsi untuk menerapkan model Anda: Menggunakan APIs, Autopilot UI, atau menggunakan APIs untuk menyebarkan dari akun yang berbeda. Instruksi ini mengasumsikan bahwa Anda telah membuat model di Autopilot. Jika Anda tidak memiliki model, lihat[Membuat Pekerjaan Regresi atau Klasifikasi untuk Data Tabular Menggunakan AutoML API](autopilot-automate-model-development-create-experiment.md). Untuk melihat contoh untuk setiap opsi, buka setiap tab.

## Menerapkan model menggunakan Autopilot UI
<a name="autopilot-deploy-models-batch-ui"></a>

UI Autopilot berisi menu tarik-turun yang bermanfaat, sakelar, tooltips, dan lainnya untuk membantu Anda menavigasi penerapan model.

Langkah-langkah berikut menunjukkan cara menerapkan model dari eksperimen Autopilot untuk prediksi batch. 

1. Masuk [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)dan pilih **Studio** dari panel navigasi.

1. Di panel navigasi kiri, pilih **Studio**.

1. Di bawah **Memulai**, pilih Domain tempat Anda ingin meluncurkan aplikasi Studio. Jika profil pengguna Anda hanya milik satu Domain, Anda tidak melihat opsi untuk memilih Domain.

1. Pilih profil pengguna yang ingin Anda luncurkan aplikasi Studio Classic. Jika tidak ada profil pengguna di domain, pilih **Buat profil pengguna**. Untuk informasi selengkapnya, lihat [Menambahkan profil pengguna](https://docs.aws.amazon.com/sagemaker/latest/dg/domain-user-profile-add.html).

1. Pilih **Launch Studio**. Jika profil pengguna milik ruang bersama, pilih **Open Spaces**. 

1. Saat konsol SageMaker Studio Classic terbuka, pilih tombol **Launch SageMaker Studio**.

1. Pilih **AutoML** dari panel navigasi kiri.

1. Di bawah **Nama**, pilih eksperimen Autopilot yang sesuai dengan model yang ingin Anda gunakan. Ini membuka tab **AUTOPILOT** JOB baru.

1. Di bagian **Nama model**, pilih model yang ingin Anda gunakan.

1. Pilih **model Deploy**. Ini membuka tab baru.

1. Pilih **Buat prediksi batch** di bagian atas halaman.

1. Untuk **konfigurasi pekerjaan transformasi Batch**, masukkan **tipe Instance**, **jumlah Instance**, dan informasi opsional lainnya.

1. Di bagian **Input data configuration**, buka menu dropdown. 

   1. Untuk **tipe data S3**, pilih **ManifestFile**atau **S3Prefix**.

   1. **Untuk **tipe Split**, pilih **Line**, **RecorDio**, **TFRecord**atau None.**

   1. Untuk **Kompresi**, pilih **Gzip** atau **Tidak Ada**. 

1. Untuk **lokasi S3**, masukkan lokasi bucket Amazon S3 dari data input dan informasi opsional lainnya.

1. Di bawah **Konfigurasi data keluaran**, masukkan bucket S3 untuk data keluaran, dan pilih cara [merakit output](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TransformOutput.html#sagemaker-Type-TransformOutput-AssembleWith) pekerjaan Anda. 

   1. Untuk **konfigurasi Tambahan (opsional)**, Anda dapat memasukkan tipe MIME dan kunci **Enkripsi S3**.

1. Untuk **penyaringan input/output dan gabungan data (opsional)**, Anda memasukkan JSONpath ekspresi untuk memfilter data input Anda, menggabungkan data sumber input dengan data output Anda, dan memasukkan JSONpath ekspresi untuk memfilter data keluaran Anda. 

   1. Untuk contoh untuk setiap jenis filter, lihat [DataProcessing API](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DataProcessing.html#sagemaker-Type-DataProcessing-InputFilter).

1. Untuk melakukan prediksi batch pada kumpulan data input Anda, pilih **Buat pekerjaan transformasi batch**. Tab **Batch Transform Jobs** baru muncul.

1. Di tab **Batch Transform Jobs**: Temukan nama pekerjaan Anda di bagian **Status**. Kemudian periksa kemajuan pekerjaan. 

## Menyebarkan menggunakan SageMaker APIs
<a name="autopilot-deploy-models-batch-steps"></a>

Untuk menggunakan inferensi batch SageMaker APIs for, ada tiga langkah:

1. **Dapatkan definisi kandidat** 

   Definisi kandidat dari [InferenceContainers](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLCandidate.html#sagemaker-Type-AutoMLCandidate-InferenceContainers)digunakan untuk membuat model SageMaker AI. 

   Contoh berikut menunjukkan cara menggunakan [DescribeAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html)API untuk mendapatkan definisi kandidat untuk kandidat model terbaik. Lihat AWS CLI perintah berikut sebagai contoh.

   ```
   aws sagemaker describe-auto-ml-job --auto-ml-job-name <job-name> --region <region>
   ```

   Gunakan [ListCandidatesForAutoMLJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListCandidatesForAutoMLJob.html)API untuk mencantumkan semua kandidat. Lihat AWS CLI perintah berikut sebagai contoh.

   ```
   aws sagemaker list-candidates-for-auto-ml-job --auto-ml-job-name <job-name> --region <region>
   ```

1. **Buat model SageMaker AI**

   Untuk membuat model SageMaker AI menggunakan [CreateModel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html)API, gunakan definisi container dari langkah sebelumnya. Lihat AWS CLI perintah berikut sebagai contoh.

   ```
   aws sagemaker create-model --model-name '<your-custom-model-name>' \
                       --containers ['<container-definition1>, <container-definition2>, <container-definition3>]' \
                       --execution-role-arn '<execution-role-arn>' --region '<region>
   ```

1. **Buat pekerjaan transformasi SageMaker AI** 

   Contoh berikut membuat pekerjaan transformasi SageMaker AI dengan [CreateTransformJob](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/create-transform-job.html)API. Lihat AWS CLI perintah berikut sebagai contoh.

   ```
   aws sagemaker create-transform-job --transform-job-name '<your-custom-transform-job-name>' --model-name '<your-custom-model-name-from-last-step>'\
   --transform-input '{
           "DataSource": {
               "S3DataSource": {
                   "S3DataType": "S3Prefix", 
                   "S3Uri": "<your-input-data>" 
               }
           },
           "ContentType": "text/csv",
           "SplitType": "Line"
       }'\
   --transform-output '{
           "S3OutputPath": "<your-output-path>",
           "AssembleWith": "Line" 
       }'\
   --transform-resources '{
           "InstanceType": "<instance-type>", 
           "InstanceCount": 1
       }' --region '<region>'
   ```

Periksa kemajuan pekerjaan transformasi Anda menggunakan [DescribeTransformJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTransformJob.html)API. Lihat AWS CLI perintah berikut sebagai contoh.

```
aws sagemaker describe-transform-job --transform-job-name '<your-custom-transform-job-name>' --region <region>
```

Setelah pekerjaan selesai, hasil yang diprediksi akan tersedia di`<your-output-path>`. 

Nama file output memiliki format berikut:`<input_data_file_name>.out`. Sebagai contoh, jika file input Anda`text_x.csv`, nama output akan menjadi`text_x.csv.out`.

Tab berikut menunjukkan contoh kode untuk SageMaker Python SDK, AWS SDK untuk Python (boto3), dan file. AWS CLI

------
#### [ SageMaker Python SDK ]

Contoh berikut menggunakan **[SageMaker Python SDK](https://sagemaker.readthedocs.io/en/stable/overview.html)** untuk membuat prediksi dalam batch.

```
from sagemaker import AutoML

sagemaker_session= sagemaker.session.Session()

job_name = 'test-auto-ml-job' # your autopilot job name
automl = AutoML.attach(auto_ml_job_name=job_name)
output_path = 's3://test-auto-ml-job/output'
input_data = 's3://test-auto-ml-job/test_X.csv'

# call DescribeAutoMLJob API to get the best candidate definition
best_candidate = automl.describe_auto_ml_job()['BestCandidate']
best_candidate_name = best_candidate['CandidateName']

# create model
model = automl.create_model(name=best_candidate_name, 
               candidate=best_candidate)

# create transformer
transformer = model.transformer(instance_count=1, 
    instance_type='ml.m5.2xlarge',
    assemble_with='Line',
    output_path=output_path)

# do batch transform
transformer.transform(data=input_data,
                      split_type='Line',
                       content_type='text/csv',
                       wait=True)
```

------
#### [ AWS SDK for Python (boto3) ]

 Contoh berikut menggunakan **AWS SDK untuk Python (boto3**) untuk membuat prediksi dalam batch.

```
import sagemaker 
import boto3

session = sagemaker.session.Session()

sm_client = boto3.client('sagemaker', region_name='us-west-2')
role = 'arn:aws:iam::1234567890:role/sagemaker-execution-role'
output_path = 's3://test-auto-ml-job/output'
input_data = 's3://test-auto-ml-job/test_X.csv'

best_candidate = sm_client.describe_auto_ml_job(AutoMLJobName=job_name)['BestCandidate']
best_candidate_containers = best_candidate['InferenceContainers']
best_candidate_name = best_candidate['CandidateName']

# create model
reponse = sm_client.create_model(
    ModelName = best_candidate_name,
    ExecutionRoleArn = role,
    Containers = best_candidate_containers 
)

# Lauch Transform Job
response = sm_client.create_transform_job(
    TransformJobName=f'{best_candidate_name}-transform-job',
    ModelName=model_name,
    TransformInput={
        'DataSource': {
            'S3DataSource': {
                'S3DataType': 'S3Prefix',
                'S3Uri': input_data
            }
        },
        'ContentType': "text/csv",
        'SplitType': 'Line'
    },
    TransformOutput={
        'S3OutputPath': output_path,
        'AssembleWith': 'Line',
    },
    TransformResources={
        'InstanceType': 'ml.m5.2xlarge',
        'InstanceCount': 1,
    },
)
```

Pekerjaan inferensi batch mengembalikan respons dalam format berikut.

```
{'TransformJobArn': 'arn:aws:sagemaker:us-west-2:1234567890:transform-job/test-transform-job',
 'ResponseMetadata': {'RequestId': '659f97fc-28c4-440b-b957-a49733f7c2f2',
  'HTTPStatusCode': 200,
  'HTTPHeaders': {'x-amzn-requestid': '659f97fc-28c4-440b-b957-a49733f7c2f2',
   'content-type': 'application/x-amz-json-1.1',
   'content-length': '96',
   'date': 'Thu, 11 Aug 2022 22:23:49 GMT'},
  'RetryAttempts': 0}}
```

------
#### [ AWS Command Line Interface (AWS CLI) ]

1. **Dapatkan definisi kandidat** dengan menggunakan contoh kode berikut.

   ```
   aws sagemaker describe-auto-ml-job --auto-ml-job-name 'test-automl-job' --region us-west-2
   ```

1. **Buat model** dengan menggunakan contoh kode berikut.

   ```
   aws sagemaker create-model --model-name 'test-sagemaker-model'
   --containers '[{
       "Image": "348316444620.dkr.ecr.us-west-2.amazonaws.com/sagemaker-sklearn-automl:2.5-1-cpu-py3",
       "ModelDataUrl": "s3://amzn-s3-demo-bucket/out/test-job1/data-processor-models/test-job1-dpp0-1-e569ff7ad77f4e55a7e549a/output/model.tar.gz",
       "Environment": {
           "AUTOML_SPARSE_ENCODE_RECORDIO_PROTOBUF": "1",
           "AUTOML_TRANSFORM_MODE": "feature-transform",
           "SAGEMAKER_DEFAULT_INVOCATIONS_ACCEPT": "application/x-recordio-protobuf",
           "SAGEMAKER_PROGRAM": "sagemaker_serve",
           "SAGEMAKER_SUBMIT_DIRECTORY": "/opt/ml/model/code"
       }
   }, {
       "Image": "348316444620.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.3-1-cpu-py3",
       "ModelDataUrl": "s3://amzn-s3-demo-bucket/out/test-job1/tuning/flicdf10v2-dpp0-xgb/test-job1E9-244-7490a1c0/output/model.tar.gz",
       "Environment": {
           "MAX_CONTENT_LENGTH": "20971520",
           "SAGEMAKER_DEFAULT_INVOCATIONS_ACCEPT": "text/csv",
           "SAGEMAKER_INFERENCE_OUTPUT": "predicted_label", 
           "SAGEMAKER_INFERENCE_SUPPORTED": "predicted_label,probability,probabilities" 
       }
   }, {
       "Image": "348316444620.dkr.ecr.us-west-2.amazonaws.com/sagemaker-sklearn-automl:2.5-1-cpu-py3", 
       "ModelDataUrl": "s3://amzn-s3-demo-bucket/out/test-job1/data-processor-models/test-job1-dpp0-1-e569ff7ad77f4e55a7e549a/output/model.tar.gz", 
       "Environment": { 
           "AUTOML_TRANSFORM_MODE": "inverse-label-transform", 
           "SAGEMAKER_DEFAULT_INVOCATIONS_ACCEPT": "text/csv", 
           "SAGEMAKER_INFERENCE_INPUT": "predicted_label", 
           "SAGEMAKER_INFERENCE_OUTPUT": "predicted_label", 
           "SAGEMAKER_INFERENCE_SUPPORTED": "predicted_label,probability,labels,probabilities", 
           "SAGEMAKER_PROGRAM": "sagemaker_serve", 
           "SAGEMAKER_SUBMIT_DIRECTORY": "/opt/ml/model/code" 
       } 
   }]' \
   --execution-role-arn 'arn:aws:iam::1234567890:role/sagemaker-execution-role' \
   --region 'us-west-2'
   ```

1. **Buat pekerjaan transformasi** dengan menggunakan contoh kode berikut.

   ```
   aws sagemaker create-transform-job --transform-job-name 'test-tranform-job'\
    --model-name 'test-sagemaker-model'\
   --transform-input '{
           "DataSource": {
               "S3DataSource": {
                   "S3DataType": "S3Prefix",
                   "S3Uri": "s3://amzn-s3-demo-bucket/data.csv"
               }
           },
           "ContentType": "text/csv",
           "SplitType": "Line"
       }'\
   --transform-output '{
           "S3OutputPath": "s3://amzn-s3-demo-bucket/output/",
           "AssembleWith": "Line"
       }'\
   --transform-resources '{
           "InstanceType": "ml.m5.2xlarge",
           "InstanceCount": 1
       }'\
   --region 'us-west-2'
   ```

1. **Periksa kemajuan pekerjaan transformasi** dengan menggunakan contoh kode berikut. 

   ```
   aws sagemaker describe-transform-job --transform-job-name  'test-tranform-job' --region us-west-2
   ```

   Berikut ini adalah respons dari pekerjaan transformasi.

   ```
   {
       "TransformJobName": "test-tranform-job",
       "TransformJobArn": "arn:aws:sagemaker:us-west-2:1234567890:transform-job/test-tranform-job",
       "TransformJobStatus": "InProgress",
       "ModelName": "test-model",
       "TransformInput": {
           "DataSource": {
               "S3DataSource": {
                   "S3DataType": "S3Prefix",
                   "S3Uri": "s3://amzn-s3-demo-bucket/data.csv"
               }
           },
           "ContentType": "text/csv",
           "CompressionType": "None",
           "SplitType": "Line"
       },
       "TransformOutput": {
           "S3OutputPath": "s3://amzn-s3-demo-bucket/output/",
           "AssembleWith": "Line",
           "KmsKeyId": ""
       },
       "TransformResources": {
           "InstanceType": "ml.m5.2xlarge",
           "InstanceCount": 1
       },
       "CreationTime": 1662495635.679,
       "TransformStartTime": 1662495847.496,
       "DataProcessing": {
           "InputFilter": "$",
           "OutputFilter": "$",
           "JoinSource": "None"
       }
   }
   ```

   Setelah `TransformJobStatus` perubahan`Completed`, Anda dapat memeriksa hasil inferensi di. `S3OutputPath`

------

## Terapkan model dari akun yang berbeda
<a name="autopilot-deploy-models-batch-across-accounts"></a>

Untuk membuat pekerjaan inferensi batch di akun yang berbeda dari yang dibuat model, ikuti instruksi di[Terapkan model dari akun yang berbeda](autopilot-deploy-models-realtime.md#autopilot-deploy-models-realtime-across-accounts). Kemudian Anda dapat membuat model dan mengubah pekerjaan dengan mengikuti[Menyebarkan menggunakan SageMaker APIs](#autopilot-deploy-models-batch-steps).

# Lihat detail model
<a name="autopilot-models-details"></a>

Autopilot menghasilkan detail tentang model kandidat yang dapat Anda peroleh. Rincian ini meliputi:
+ Plot nilai SHAP agregat yang menunjukkan pentingnya setiap fitur. Ini membantu menjelaskan prediksi model Anda.
+ Ringkasan statistik untuk berbagai metrik pelatihan dan validasi, termasuk metrik objektif.
+ Daftar hyperparameters yang digunakan untuk melatih dan menyetel model.

Untuk melihat detail model setelah menjalankan pekerjaan Autopilot, ikuti langkah-langkah berikut:

1. Pilih ikon **Beranda** (![\[Black square icon representing a placeholder or empty image.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/icons/house.png)) dari panel navigasi kiri untuk melihat menu navigasi **Amazon SageMaker Studio Classic** tingkat atas.

1. Pilih kartu **AutoML** dari area kerja utama. Ini membuka tab **Autopilot** baru.

1. Di bagian **Nama**, pilih pekerjaan Autopilot yang memiliki detail yang ingin Anda periksa. Ini membuka tab pekerjaan **Autopilot** baru.

1. **Panel **pekerjaan Autopilot** mencantumkan nilai metrik termasuk metrik **Objektif** untuk setiap model di bawah nama Model.** **Model Terbaik** tercantum di bagian atas daftar di bawah **nama Model** dan juga disorot di tab **Model**.

   1. Untuk meninjau detail model, pilih model yang Anda minati dan pilih **Lihat detail model**. Ini membuka tab **Detail Model** baru.

1. Tab **Detail Model** dibagi menjadi empat subbagian.

   1. Bagian atas tab **Explainability** berisi plot nilai SHAP agregat yang menunjukkan pentingnya setiap fitur. Berikut itu adalah metrik dan nilai hyperparameter untuk model ini. 

   1. Tab **Performance** berisi statistik metrik matriks kebingungan. 

   1. Tab **Artefak** berisi informasi tentang input model, output, dan hasil antara.

   1. Tab **Jaringan** merangkum pilihan isolasi dan enkripsi jaringan Anda.
**catatan**  
Kepentingan fitur dan informasi di tab **Performance** hanya dihasilkan untuk **model Terbaik**.

   Untuk informasi lebih lanjut tentang bagaimana nilai SHAP membantu menjelaskan prediksi berdasarkan kepentingan fitur, lihat whitepaper [Memahami](https://pages.awscloud.com/rs/112-TZM-766/images/Amazon.AI.Fairness.and.Explainability.Whitepaper.pdf) penjelasan model. Informasi tambahan juga tersedia dalam [Penjelasan Model](clarify-model-explainability.md) topik di Panduan Pengembang SageMaker AI. 

# Lihat laporan kinerja model Autopilot
<a name="autopilot-model-insights"></a>

Laporan kualitas model SageMaker AI Amazon (juga disebut sebagai laporan kinerja) memberikan wawasan dan informasi kualitas untuk kandidat model terbaik yang dihasilkan oleh pekerjaan AutoML. Ini termasuk informasi tentang detail pekerjaan, jenis masalah model, fungsi tujuan, dan informasi lain yang terkait dengan jenis masalah. Panduan ini menunjukkan cara melihat metrik kinerja Amazon SageMaker Autopilot secara grafis, atau melihat metrik sebagai data mentah dalam file JSON.

Misalnya, dalam masalah klasifikasi, laporan kualitas model meliputi yang berikut:
+ Matriks kebingungan
+ Area di bawah kurva karakteristik operasi penerima (AUC)
+ Informasi untuk memahami positif palsu dan negatif palsu
+ Pengorbanan antara positif benar dan positif palsu
+ Pengorbanan antara presisi dan penarikan kembali

Autopilot juga menyediakan metrik kinerja untuk semua model kandidat Anda. Metrik ini dihitung menggunakan semua data pelatihan dan digunakan untuk memperkirakan kinerja model. Area kerja utama mencakup metrik ini secara default. Jenis metrik ditentukan oleh jenis masalah yang ditangani.

Lihat [dokumentasi referensi Amazon SageMaker API](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobObjective.html) untuk daftar metrik yang tersedia yang didukung oleh Autopilot.

Anda dapat mengurutkan kandidat model Anda dengan metrik yang relevan untuk membantu Anda memilih dan menerapkan model yang memenuhi kebutuhan bisnis Anda. Untuk definisi metrik ini, lihat topik metrik kandidat [Autopilot](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-metrics-validation.html#autopilot-metrics).

Untuk melihat laporan kinerja dari pekerjaan Autopilot, ikuti langkah-langkah berikut:

1. Pilih ikon **Beranda** (![\[Black square icon representing a placeholder or empty image.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/icons/house.png)) dari panel navigasi kiri untuk melihat menu navigasi **Amazon SageMaker Studio Classic** tingkat atas.

1. Pilih kartu **AutoML** dari area kerja utama. Ini membuka tab **Autopilot** baru.

1. Di bagian **Nama**, pilih pekerjaan Autopilot yang memiliki detail yang ingin Anda periksa. Ini membuka tab pekerjaan **Autopilot** baru.

1. **Panel **pekerjaan Autopilot** mencantumkan nilai metrik termasuk metrik **Objektif** untuk setiap model di bawah nama Model.** **Model Terbaik** tercantum di bagian atas daftar di bawah **nama Model** dan disorot di tab **Model**.

   1. Untuk meninjau detail model, pilih model yang Anda minati dan pilih **Lihat dalam detail model**. Ini membuka tab **Detail Model** baru.

1. Pilih tab **Performance** antara tab **Explainability** dan **Artefacts**.

   1. Di bagian kanan atas tab, pilih panah bawah pada tombol **Unduh Laporan Kinerja**. 

   1. Panah bawah menyediakan dua opsi untuk melihat metrik kinerja Autopilot:

      1. Anda dapat mengunduh PDF laporan kinerja untuk melihat metrik secara grafis.

      1. Anda dapat melihat metrik sebagai data mentah dan mengunduhnya sebagai file JSON.

Untuk petunjuk tentang cara membuat dan menjalankan pekerjaan AutoML di SageMaker Studio Classic, lihat. [Membuat Pekerjaan Regresi atau Klasifikasi untuk Data Tabular Menggunakan AutoML API](autopilot-automate-model-development-create-experiment.md) 

Laporan kinerja berisi dua bagian. Yang pertama berisi detail tentang pekerjaan Autopilot yang menghasilkan model. Bagian kedua berisi laporan kualitas model.

## Autopilot Job Detail
<a name="autopilot-model-insights-details-and-metrics-table"></a>

Bagian pertama dari laporan ini memberikan beberapa informasi umum tentang pekerjaan Autopilot yang menghasilkan model. Rincian pekerjaan ini mencakup informasi berikut:
+ Nama kandidat autopilot
+ Nama pekerjaan Autopilot
+ Jenis masalah
+ Metrik objektif
+ Arah optimasi

## Laporan kualitas model
<a name="autopilot-model-quality-report"></a>

Informasi kualitas model dihasilkan oleh wawasan model Autopilot. Konten laporan yang dihasilkan bergantung pada jenis masalah yang ditangani: regresi, klasifikasi biner, atau klasifikasi multikelas. Laporan tersebut menentukan jumlah baris yang termasuk dalam dataset evaluasi dan waktu evaluasi terjadi.

### Tabel metrik
<a name="autopilot-model-quality-report-metrics"></a>

Bagian pertama dari laporan kualitas model berisi tabel metrik. Ini sesuai untuk jenis masalah yang ditangani model.

Gambar berikut adalah contoh tabel metrik yang dihasilkan Autopilot untuk masalah regresi. Ini menunjukkan nama metrik, nilai, dan standar deviasi.

![\[Contoh laporan metrik regresi wawasan model SageMaker Autopilot Amazon Autopilot.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-regression-metrics.png)


Gambar berikut adalah contoh tabel metrik yang dihasilkan oleh Autopilot untuk masalah klasifikasi multiclass. Ini menunjukkan nama metrik, nilai, dan standar deviasi.

![\[Contoh laporan metrik klasifikasi klasifikasi multiclass Amazon SageMaker Autopilot.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-multiclass-metrics-report.png)


### Informasi kinerja model grafis
<a name="autopilot-model-quality-report-graphs"></a>

 Bagian kedua dari laporan kualitas model berisi informasi grafis untuk membantu Anda mengevaluasi kinerja model. Isi bagian ini tergantung pada jenis masalah yang digunakan dalam pemodelan.

#### Area di bawah kurva karakteristik operasi penerima
<a name="autopilot-model-insights-auc-roc"></a>

Area di bawah kurva karakteristik operasi penerima mewakili trade-off antara tingkat positif benar dan positif palsu. Ini adalah metrik akurasi standar industri yang digunakan untuk model klasifikasi biner. AUC (area di bawah kurva) mengukur kemampuan model untuk memprediksi skor yang lebih tinggi untuk contoh positif, dibandingkan dengan contoh negatif. Metrik AUC memberikan ukuran agregat dari kinerja model di semua ambang batas klasifikasi yang mungkin.

Metrik AUC mengembalikan nilai desimal dari 0 menjadi 1. Nilai AUC mendekati 1 menunjukkan bahwa model pembelajaran mesin sangat akurat. Nilai mendekati 0,5 menunjukkan bahwa model berkinerja tidak lebih baik daripada menebak secara acak. Nilai AUC mendekati 0 menunjukkan bahwa model telah mempelajari pola yang benar, tetapi membuat prediksi yang seakurat mungkin. Nilai mendekati nol dapat menunjukkan masalah dengan data. Untuk informasi selengkapnya tentang metrik AUC, lihat artikel [karakteristik operasi Penerima](https://en.wikipedia.org/wiki/Receiver_operating_characteristic) di Wikipedia.

Berikut ini adalah contoh area di bawah grafik kurva karakteristik operasi penerima untuk mengevaluasi prediksi yang dibuat oleh model klasifikasi biner. Garis tipis putus-putus mewakili area di bawah kurva karakteristik operasi penerima yang akan dinilai oleh model yang mengklasifikasikan no-better-than-random tebakan, dengan skor AUC 0,5. Kurva model klasifikasi yang lebih akurat terletak di atas garis dasar acak ini, di mana tingkat positif sejati melebihi tingkat positif palsu. Area di bawah kurva karakteristik operasi penerima yang mewakili kinerja model klasifikasi biner adalah garis padat yang lebih tebal. 

![\[Amazon SageMaker Autopilot area di bawah contoh kurva karakteristik operasi penerima.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-receiver-operating-characteristic-curve.png)


Ringkasan komponen grafik **tingkat positif palsu (FPR) dan tingkat** **positif sejati** (TPR) didefinisikan sebagai berikut.
+ Prediksi yang benar
  + **True positive** (TP): Nilai yang diprediksi adalah 1, dan nilai sebenarnya adalah 1.
  + **Benar negatif** (TN): Nilai yang diprediksi adalah 0, dan nilai sebenarnya adalah 0.
+ Prediksi yang salah
  + **Positif palsu** (FP): Nilai yang diprediksi adalah 1, tetapi nilai sebenarnya adalah 0.
  + **False negative** (FN): Nilai yang diprediksi adalah 0, tetapi nilai sebenarnya adalah 1.

**Tingkat positif palsu** (FPR) mengukur fraksi negatif sejati (TN) yang diprediksi secara salah sebagai positif (FP), atas jumlah FP dan TN. Kisarannya adalah 0 hingga 1. Nilai yang lebih kecil menunjukkan akurasi prediksi yang lebih baik. 
+ FPR = FP/ (FP\$1TN)

**Tingkat positif sejati** (TPR) mengukur fraksi positif sejati yang diprediksi dengan benar sebagai positif (TP) atas jumlah TP dan negatif palsu (FN). Kisarannya adalah 0 hingga 1. Nilai yang lebih besar menunjukkan akurasi prediksi yang lebih baik.
+ TPR = TP/ (TP\$1FN)

#### Matriks kebingungan
<a name="autopilot-model-insights-confusion-matrix"></a>

Matriks kebingungan menyediakan cara untuk memvisualisasikan keakuratan prediksi yang dibuat oleh model untuk klasifikasi biner dan multikelas untuk masalah yang berbeda. Matriks kebingungan dalam laporan kualitas model berisi yang berikut ini.
+ Jumlah dan persentase prediksi yang benar dan salah untuk label yang sebenarnya
+ Jumlah dan persentase prediksi akurat pada diagonal dari kiri atas ke pojok kanan bawah
+ Jumlah dan persentase prediksi yang tidak akurat pada diagonal dari kanan atas ke sudut kiri bawah

Prediksi yang salah pada matriks kebingungan adalah nilai kebingungan.

Diagram berikut adalah contoh matriks kebingungan untuk masalah klasifikasi biner. Itu berisi informasi berikut:
+ Sumbu vertikal dibagi menjadi dua baris yang berisi label aktual benar dan salah.
+ Sumbu horizontal dibagi menjadi dua kolom yang berisi label benar dan salah yang diprediksi oleh model.
+ Bilah warna memberikan nada yang lebih gelap ke sejumlah besar sampel untuk secara visual menunjukkan jumlah nilai yang diklasifikasikan dalam setiap kategori.

Dalam contoh ini, model memprediksi 2817 nilai palsu aktual dengan benar, dan 353 nilai sebenarnya sebenarnya dengan benar. Model salah memprediksi 130 nilai sebenarnya sebenarnya menjadi salah dan 33 nilai palsu aktual menjadi benar. Perbedaan nada menunjukkan bahwa dataset tidak seimbang. Ketidakseimbangan ini karena ada lebih banyak label palsu yang sebenarnya daripada label sebenarnya.

![\[Contoh matriks kebingungan biner Amazon SageMaker Autopilot.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-confusion-matrix-binary.png)


Diagram berikut adalah contoh matriks kebingungan untuk masalah klasifikasi multi-kelas. Matriks kebingungan dalam laporan kualitas model berisi yang berikut ini.
+ Sumbu vertikal dibagi menjadi tiga baris yang berisi tiga label aktual yang berbeda.
+ Sumbu horizontal dibagi menjadi tiga kolom yang berisi label yang diprediksi oleh model.
+ Bilah warna memberikan nada yang lebih gelap ke sejumlah besar sampel untuk secara visual menunjukkan jumlah nilai yang diklasifikasikan dalam setiap kategori.

**Dalam contoh di bawah ini, model dengan benar memprediksi 354 nilai aktual untuk label **f**, 1094 nilai untuk label **i** dan 852 nilai untuk label m.** Perbedaan nada menunjukkan bahwa kumpulan data tidak seimbang karena ada lebih banyak label untuk nilai **i** daripada untuk **f** atau **m**. 

![\[Contoh matriks kebingungan multiclass Amazon SageMaker Autopilot.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-confusion-matrix-multiclass.png)


Matriks kebingungan dalam laporan kualitas model yang disediakan dapat mengakomodasi maksimum 15 label untuk jenis masalah klasifikasi multikelas. Jika baris yang sesuai dengan label menunjukkan `Nan` nilai, itu berarti kumpulan data validasi yang digunakan untuk memeriksa prediksi model tidak berisi data dengan label tersebut.

#### Kurva keuntungan
<a name="autopilot-model-insights-precision-gain-curve"></a>

Dalam klasifikasi biner, kurva penguatan memprediksi manfaat kumulatif menggunakan persentase kumpulan data untuk menemukan label positif. Nilai gain dihitung selama pelatihan dengan membagi jumlah kumulatif pengamatan positif dengan jumlah total pengamatan positif dalam data, pada setiap desil. Jika model klasifikasi yang dibuat selama pelatihan mewakili data yang tidak terlihat, Anda dapat menggunakan kurva penguatan untuk memprediksi persentase data yang harus Anda targetkan untuk mendapatkan persentase label positif. Semakin besar persentase dataset yang digunakan, semakin tinggi persentase label positif yang ditemukan.

Dalam contoh grafik berikut, kurva penguatan adalah garis dengan kemiringan yang berubah. Garis lurus adalah persentase label positif yang ditemukan dengan memilih persentase data dari kumpulan data secara acak. Setelah menargetkan 20% dari kumpulan data, Anda akan menemukan lebih besar dari 40% label positif. Misalnya, Anda dapat mempertimbangkan untuk menggunakan kurva keuntungan untuk menentukan upaya Anda dalam kampanye pemasaran. Menggunakan contoh kurva keuntungan kami, untuk 83% orang di lingkungan untuk membeli cookie, Anda akan mengirim iklan ke sekitar 60% dari lingkungan sekitar.

![\[Amazon SageMaker Autopilot mendapatkan contoh kurva dengan persentase dan nilai gain.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-gain-curve.png)


#### Kurva angkat
<a name="autopilot-model-insights-lift-curve"></a>

Dalam klasifikasi biner, kurva angkat menggambarkan peningkatan menggunakan model terlatih untuk memprediksi kemungkinan menemukan label positif dibandingkan dengan tebakan acak. Nilai angkat dihitung selama pelatihan menggunakan rasio kenaikan persentase dengan rasio label positif pada setiap desil. Jika model yang dibuat selama pelatihan mewakili data yang tidak terlihat, gunakan kurva angkat untuk memprediksi manfaat menggunakan model daripada menebak secara acak.

Pada contoh grafik berikut, kurva angkat adalah garis dengan kemiringan yang berubah. Garis lurus adalah kurva angkat yang terkait dengan pemilihan persentase yang sesuai secara acak dari kumpulan data. Setelah menargetkan 40% kumpulan data dengan label klasifikasi model Anda, Anda akan menemukan sekitar 1,7 kali jumlah label positif yang akan Anda temukan dengan memilih secara acak 40% dari data yang tidak terlihat.

![\[Contoh kurva angkat Amazon SageMaker Autopilot dengan persentase dan nilai angkat.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-lift-curve.png)


#### Kurva penarikan presisi
<a name="autopilot-model-insights-precision-recall-curve"></a>

Kurva recall presisi mewakili tradeoff antara presisi dan recall untuk masalah klasifikasi biner. 

**Presisi** mengukur fraksi positif aktual yang diprediksi positif (TP) dari semua prediksi positif (TP dan positif palsu). Kisarannya adalah 0 hingga 1. Nilai yang lebih besar menunjukkan akurasi yang lebih baik dalam nilai yang diprediksi.
+ Presisi = TP/ (TP\$1FP)

**Ingat** mengukur fraksi positif aktual yang diprediksi sebagai positif (TP) dari semua prediksi positif aktual (TP dan negatif palsu). Ini juga dikenal sebagai sensitivitas atau sebagai tingkat positif sejati. Kisarannya adalah 0 hingga 1. Nilai yang lebih besar menunjukkan deteksi nilai positif yang lebih baik dari sampel. 
+ Ingat = TP/ (TP\$1FN)

Tujuan dari masalah klasifikasi adalah untuk memberi label dengan benar sebanyak mungkin elemen. Sebuah sistem dengan recall tinggi tetapi presisi rendah mengembalikan persentase positif palsu yang tinggi. 

Grafik berikut menggambarkan filter spam yang menandai setiap email sebagai spam. Ini memiliki daya ingat tinggi, tetapi presisi rendah, karena mengingat tidak mengukur positif palsu. 

Berikan lebih banyak bobot untuk mengingat lebih presisi jika masalah Anda memiliki penalti rendah untuk nilai positif palsu, tetapi penalti tinggi karena kehilangan hasil positif yang sebenarnya. Misalnya, mendeteksi tabrakan yang akan datang di kendaraan self-driving.

![\[Contoh autopilot dari sistem penarikan tinggi dan presisi rendah, memodelkan semua sampel sebagai positif.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-high-recall-low-precision.PNG)


Sebaliknya, sistem dengan presisi tinggi, tetapi penarikan rendah, mengembalikan persentase negatif palsu yang tinggi. Filter spam yang menandai setiap email sebagai diinginkan (bukan spam) memiliki presisi tinggi tetapi penarikan rendah karena presisi tidak mengukur negatif palsu. 

Jika masalah Anda memiliki penalti rendah untuk nilai negatif palsu, tetapi penalti tinggi karena kehilangan hasil negatif yang sebenarnya, berikan bobot lebih pada presisi daripada mengingat. Misalnya, menandai filter mencurigakan untuk audit pajak.

Grafik berikut menggambarkan filter spam yang memiliki presisi tinggi tetapi daya ingat rendah, karena presisi tidak mengukur negatif palsu. 

![\[Contoh autopilot sistem presisi tinggi dan penarikan rendah, memodelkan semua sampel sebagai negatif.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-high-precision-low-recall.PNG)


Model yang membuat prediksi dengan presisi tinggi dan ingatan tinggi menghasilkan sejumlah besar hasil berlabel dengan benar. Untuk informasi lebih lanjut, lihat artikel [Presisi dan ingat](https://en.wikipedia.org/wiki/Precision_and_recall) di Wikipedia.

#### Area di bawah kurva penarikan presisi (AUPRC)
<a name="autopilot-model-insights-area-under-precision-recall-curve"></a>

Untuk masalah klasifikasi biner, Amazon SageMaker Autopilot menyertakan grafik area di bawah kurva penarikan presisi (AUPRC). Metrik AUPRC memberikan ukuran agregat dari kinerja model di semua ambang klasifikasi yang mungkin dan menggunakan presisi dan penarikan. AUPRC tidak memperhitungkan jumlah negatif sejati. Oleh karena itu, dapat berguna untuk mengevaluasi kinerja model dalam kasus di mana ada sejumlah besar negatif sejati dalam data. Misalnya, untuk memodelkan gen yang mengandung mutasi langka.

Grafik berikut adalah contoh grafik AUPRC. Presisi pada nilai tertinggi adalah 1, dan recall pada 0. Di sudut kanan bawah grafik, recall adalah nilai tertinggi (1) dan presisi adalah 0. Di antara dua titik ini, kurva AUPRC menggambarkan tradeoff antara presisi dan recall pada ambang batas yang berbeda.

![\[Kurva recall presisi menggambarkan tradeoff antara presisi dan recall pada ambang batas yang berbeda.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-binary-precision-recall.png)


#### Aktual terhadap plot yang diprediksi
<a name="autopilot-model-insights-actual-vs-predicted-plot"></a>

Plot aktual terhadap prediksi menunjukkan perbedaan antara nilai model aktual dan prediksi. Dalam contoh grafik berikut, garis padat adalah garis linier yang paling cocok. Jika modelnya 100% akurat, setiap titik yang diprediksi akan sama dengan titik aktual yang sesuai dan terletak pada garis yang paling cocok ini. Jarak jauh dari garis yang paling cocok adalah indikasi visual kesalahan model. Semakin besar jarak dari garis yang paling cocok, semakin tinggi kesalahan model.

![\[Contoh dengan garis linier yang paling cocok, plot aktual dan prediksi yang berbeda, dan kesalahan model.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-actual-vs-predicted-plot.png)


#### Plot residu standar
<a name="autopilot-model-insights-standardized-residual"></a>

Plot residu standar menggabungkan istilah statistik berikut:

**`residual`**  
Sisa (mentah) menunjukkan perbedaan antara aktual dan nilai yang diprediksi oleh model Anda. Semakin besar perbedaannya, semakin besar nilai residu.

**`standard deviation`**  
Standar deviasi adalah ukuran bagaimana nilai bervariasi dari nilai rata-rata. Standar deviasi yang tinggi menunjukkan bahwa banyak nilai sangat berbeda dari nilai rata-ratanya. Standar deviasi yang rendah menunjukkan bahwa banyak nilai mendekati nilai rata-ratanya.

**`standardized residual`**  
Residu standar membagi residu mentah dengan standar deviasi mereka. Residu standar memiliki satuan standar deviasi dan berguna dalam mengidentifikasi outlier dalam data terlepas dari perbedaan skala residu mentah. Jika residu standar jauh lebih kecil atau lebih besar daripada residu standar lainnya, ini menunjukkan bahwa model tersebut tidak sesuai dengan pengamatan ini dengan baik.

Plot residu standar mengukur kekuatan perbedaan antara nilai yang diamati dan yang diharapkan. Nilai prediksi aktual ditampilkan pada sumbu x. Titik dengan nilai lebih besar dari nilai absolut 3 umumnya dianggap sebagai outlier.

Contoh grafik berikut menunjukkan bahwa sejumlah besar residu standar dikelompokkan sekitar 0 pada sumbu horizontal. Nilai mendekati nol menunjukkan bahwa model cocok dengan titik-titik ini dengan baik. Titik-titik ke arah atas dan bawah plot tidak diprediksi dengan baik oleh model.

![\[Contoh plot residu standar Amazon SageMaker Autopilot.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-standardized-residual.png)


#### Histogram sisa
<a name="autopilot-model-insights-residual-histogram"></a>

Histogram residual menggabungkan istilah statistik berikut:

**`residual`**  
Sisa (mentah) menunjukkan perbedaan antara aktual dan nilai yang diprediksi oleh model Anda. Semakin besar perbedaannya, semakin besar nilai residu.

**`standard deviation`**  
Standar deviasi adalah ukuran seberapa banyak nilai bervariasi dari nilai rata-rata. Standar deviasi yang tinggi menunjukkan bahwa banyak nilai sangat berbeda dari nilai rata-ratanya. Standar deviasi yang rendah menunjukkan bahwa banyak nilai mendekati nilai rata-ratanya.

**`standardized residual`**  
Residu standar membagi residu mentah dengan standar deviasi mereka. Residu standar memiliki satuan standar deviasi. Ini berguna dalam mengidentifikasi outlier dalam data terlepas dari perbedaan skala residu mentah. Jika residu standar jauh lebih kecil atau lebih besar daripada residu standar lainnya, itu akan menunjukkan bahwa model tersebut tidak sesuai dengan pengamatan ini dengan baik.

**`histogram`**  
Histogram adalah grafik yang menunjukkan seberapa sering suatu nilai terjadi.

Histogram residu menunjukkan distribusi nilai residu standar. Histogram yang didistribusikan dalam bentuk lonceng dan berpusat pada nol menunjukkan bahwa model tidak secara sistematis memprediksi atau meremehkan rentang nilai target tertentu.

Dalam grafik berikut, nilai residu standar menunjukkan bahwa model tersebut sesuai dengan data dengan baik. Jika grafik menunjukkan nilai yang jauh dari nilai pusat, itu akan menunjukkan bahwa nilai-nilai tersebut tidak sesuai dengan model dengan baik.

![\[Nilai residu standar mendekati nol, menunjukkan bahwa model cocok dengan data dengan baik.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-model-insights-residual-histogram.png)


# Notebook autopilot dihasilkan untuk mengelola tugas AutoML
<a name="autopilot-automate-model-development-notebook-output"></a>

Amazon SageMaker Autopilot mengelola tugas-tugas utama dalam proses pembelajaran mesin otomatis (AutoML) menggunakan pekerjaan AutoML. Pekerjaan AutoML membuat tiga laporan berbasis notebook yang menggambarkan rencana yang diikuti Autopilot untuk menghasilkan model kandidat.

Model kandidat terdiri dari pasangan (pipeline, algoritma). Pertama, ada buku catatan **eksplorasi data** yang menjelaskan apa yang dipelajari Autopilot tentang data yang Anda berikan. Kedua, ada buku catatan **definisi kandidat**, yang menggunakan informasi tentang data untuk menghasilkan kandidat. Ketiga, laporan **wawasan model** yang dapat membantu merinci karakteristik kinerja model terbaik di papan peringkat eksperimen Autopilot.

**Topics**
+ [Laporan eksplorasi data autopilot](autopilot-data-exploration-report.md)
+ [Temukan dan jalankan buku catatan definisi kandidat](autopilot-candidate-generation-notebook.md)

Anda dapat menjalankan notebook ini di Amazon SageMaker AI, atau secara lokal, jika Anda telah menginstal Amazon [Python SageMaker ](https://sagemaker.readthedocs.io/en/stable) SDK. Anda dapat berbagi notebook seperti notebook SageMaker Studio Classic lainnya. Notebook dibuat untuk Anda melakukan eksperimen. Misalnya, Anda dapat mengedit item berikut di buku catatan:
+ Preprocessors yang digunakan pada data 
+ Jumlah optimasi hyperparameter (HPO) berjalan dan paralelismenya
+ Algoritma untuk dicoba
+ Jenis instans yang digunakan untuk pekerjaan HPO
+ Rentang hiperparameter

Modifikasi buku catatan definisi kandidat didorong sebagai alat pembelajaran. Dengan kemampuan ini, Anda mempelajari bagaimana keputusan yang dibuat selama proses pembelajaran mesin memengaruhi hasil Anda. 

**catatan**  
Ketika Anda menjalankan notebook dalam instance default Anda, Anda dikenakan biaya dasar. Namun, ketika Anda menjalankan pekerjaan HPO dari notebook kandidat, pekerjaan ini menggunakan sumber daya komputasi tambahan yang menimbulkan biaya tambahan. 

# Laporan eksplorasi data autopilot
<a name="autopilot-data-exploration-report"></a>

Amazon SageMaker Autopilot membersihkan dan memproses kumpulan data Anda secara otomatis. Data berkualitas tinggi meningkatkan efisiensi pembelajaran mesin dan menghasilkan model yang membuat prediksi yang lebih akurat. 

Ada masalah dengan kumpulan data yang disediakan pelanggan yang tidak dapat diperbaiki secara otomatis tanpa manfaat dari beberapa pengetahuan domain. Nilai outlier besar di kolom target untuk masalah regresi, misalnya, dapat menyebabkan prediksi suboptimal untuk nilai non-outlier. Outlier mungkin perlu dihapus tergantung pada tujuan pemodelan. Jika kolom target dimasukkan secara tidak sengaja sebagai salah satu fitur input, model akhir akan memvalidasi dengan baik, tetapi memiliki nilai kecil untuk prediksi masa depan. 

Untuk membantu pelanggan menemukan masalah semacam ini, Autopilot menyediakan laporan eksplorasi data yang berisi wawasan tentang potensi masalah dengan data mereka. Laporan ini juga menyarankan bagaimana menangani masalah.

Buku catatan eksplorasi data yang berisi laporan dibuat untuk setiap pekerjaan Autopilot. Laporan disimpan dalam bucket Amazon S3 dan dapat diakses dari jalur keluaran Anda. Jalur laporan eksplorasi data biasanya mengikuti pola berikut.

```
[s3 output path]/[name of the automl job]/sagemaker-automl-candidates/[name of processing job used for data analysis]/notebooks/SageMaker AIAutopilotDataExplorationNotebook.ipynb
```

Lokasi notebook eksplorasi data dapat diperoleh dari Autopilot API menggunakan respons [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html)operasi, yang disimpan di. [DataExplorationNotebookLocation](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_AutoMLJobArtifacts.html#sagemaker-Type-AutoMLJobArtifacts-DataExplorationNotebookLocation) 

Saat menjalankan Autopilot dari SageMaker Studio Classic, Anda dapat membuka laporan eksplorasi data menggunakan langkah-langkah berikut:

1. Pilih ikon **Beranda** ![\[Black square icon representing a placeholder or empty image.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/icons/house.png) dari *panel navigasi kiri untuk melihat menu navigasi* **Amazon SageMaker Studio Classic** tingkat atas.

1. Pilih kartu **AutoML** dari area kerja utama. Ini membuka tab **Autopilot** baru.

1. Di bagian **Nama**, pilih pekerjaan Autopilot yang memiliki buku catatan eksplorasi data yang ingin Anda periksa. Ini membuka tab pekerjaan **Autopilot** baru.

1. Pilih **Buka buku catatan eksplorasi data** dari bagian kanan atas tab pekerjaan **Autopilot**.

Laporan eksplorasi data dihasilkan dari data Anda sebelum proses pelatihan dimulai. Ini memungkinkan Anda untuk menghentikan pekerjaan Autopilot yang mungkin mengarah pada hasil yang tidak berarti. Demikian juga, Anda dapat mengatasi masalah atau peningkatan apa pun dengan kumpulan data Anda sebelum menjalankan ulang Autopilot. Dengan cara ini, Anda dapat menggunakan keahlian domain Anda untuk meningkatkan kualitas data secara manual, sebelum Anda melatih model pada kumpulan data yang dikuratori dengan lebih baik.

Laporan data hanya berisi penurunan harga statis dan dapat dibuka di lingkungan Jupyter apa pun. Notebook yang berisi laporan dapat dikonversi ke format lain, seperti PDF atau HTML. Untuk informasi selengkapnya tentang konversi, lihat [Menggunakan skrip nbconvert untuk mengonversi buku catatan Jupyter ke format lain](https://nbconvert.readthedocs.io/en/latest/usage.html ). .

**Topics**
+ [Ringkasan Dataset](#autopilot-data-exploration-report-dataset-summary)
+ [Analisis Target](#autopilot-data-exploration-report-target-analysis)
+ [Sampel Data](#autopilot-data-exploration-report-data-sample)
+ [Baris duplikat](#autopilot-data-exploration-report-duplicate-rows)
+ [Korelasi kolom silang](#autopilot-data-exploration-report-cross-column-correlations)
+ [Baris Anomali](#autopilot-data-exploration-report-cross-anomolous-rows)
+ [Nilai yang hilang, kardinalitas, dan statistik deskriptif](#autopilot-data-exploration-report-description-statistics-and-values)

## Ringkasan Dataset
<a name="autopilot-data-exploration-report-dataset-summary"></a>

**Ringkasan Set Data** ini menyediakan statistik utama yang mengkarakterisasi kumpulan data Anda termasuk jumlah baris, kolom, persen baris duplikat, dan nilai target yang hilang. Ini dimaksudkan untuk memberi Anda peringatan cepat ketika ada masalah dengan kumpulan data Anda yang terdeteksi Amazon SageMaker Autopilot dan yang kemungkinan memerlukan intervensi Anda. Wawasan muncul sebagai peringatan yang diklasifikasikan sebagai tingkat keparahan “tinggi” atau “rendah”. Klasifikasi tergantung pada tingkat kepercayaan bahwa masalah tersebut akan berdampak buruk pada kinerja model.

Wawasan tingkat keparahan tinggi dan rendah muncul dalam ringkasan sebagai pop-up. Untuk sebagian besar wawasan, rekomendasi ditawarkan untuk cara mengonfirmasi bahwa ada masalah dengan kumpulan data yang memerlukan perhatian Anda. Proposal juga disediakan untuk cara menyelesaikan masalah.

Autopilot memberikan statistik tambahan tentang nilai target yang hilang atau tidak valid dalam kumpulan data kami untuk membantu Anda mendeteksi masalah lain yang mungkin tidak ditangkap oleh wawasan tingkat keparahan tinggi. Jumlah kolom yang tidak terduga dari jenis tertentu mungkin menunjukkan bahwa beberapa kolom yang ingin Anda gunakan mungkin hilang dari kumpulan data. Ini juga bisa menunjukkan bahwa ada masalah dengan bagaimana data disiapkan atau disimpan. Memperbaiki masalah data yang dibawa ke perhatian Anda oleh Autopilot dapat meningkatkan kinerja model pembelajaran mesin yang dilatih pada data Anda. 

Wawasan tingkat keparahan tinggi ditampilkan di bagian ringkasan dan di bagian lain yang relevan dalam laporan. Contoh wawasan tingkat keparahan tinggi dan rendah biasanya diberikan tergantung pada bagian laporan data.

## Analisis Target
<a name="autopilot-data-exploration-report-target-analysis"></a>

Berbagai wawasan tingkat keparahan tinggi dan rendah ditampilkan di bagian ini terkait dengan distribusi nilai di kolom target. Periksa apakah kolom target berisi nilai yang benar. Nilai yang salah di kolom target kemungkinan akan menghasilkan model pembelajaran mesin yang tidak melayani tujuan bisnis yang dimaksudkan. Beberapa wawasan data tingkat keparahan tinggi dan rendah hadir di bagian ini. Berikut adalah beberapa contoh tanda.
+ **Nilai target outlier** - Distribusi target miring atau tidak biasa untuk regresi, seperti target berekor berat.
+ **Kardinalitas target tinggi atau rendah** - Jumlah label kelas yang jarang atau sejumlah besar kelas unik untuk klasifikasi.

Untuk jenis masalah regresi dan klasifikasi, nilai yang tidak valid seperti tak terhingga numerik, `NaN` atau ruang kosong di kolom target muncul. Tergantung pada jenis masalah, statistik dataset yang berbeda disajikan. Distribusi nilai kolom target untuk masalah regresi memungkinkan Anda memverifikasi apakah distribusi sesuai dengan yang Anda harapkan. 

Tangkapan layar berikut menunjukkan laporan data Autopilot, yang mencakup statistik seperti rata-rata, median, minimum, maksimum, persentase outlier dalam kumpulan data Anda. Tangkapan layar juga menyertakan histogram yang menunjukkan distribusi label di kolom target. Histogram menunjukkan **Nilai Kolom Target** pada sumbu horizontal dan **Hitung** pada sumbu vertikal. Sebuah kotak menyoroti bagian **Persentase Outliers** pada tangkapan layar untuk menunjukkan di mana statistik ini muncul.

![\[Laporan data autopilot tentang distribusi nilai kolom target.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-data-report-target-analysis.png)


Beberapa statistik ditampilkan mengenai nilai target dan distribusinya. Jika salah satu outlier, bukan nilai yang valid, atau persentase yang hilang lebih besar dari nol, nilai ini muncul sehingga Anda dapat menyelidiki mengapa data Anda berisi nilai target yang tidak dapat digunakan. Beberapa nilai target yang tidak dapat digunakan disorot sebagai peringatan wawasan tingkat keparahan rendah. 

Pada tangkapan layar berikut, simbol `ditambahkan secara tidak sengaja ke kolom target, yang mencegah nilai numerik target diurai. **Wawasan tingkat keparahan rendah: Peringatan “Nilai target tidak valid” muncul.** Peringatan dalam contoh ini menyatakan "0,14% label di kolom target tidak dapat dikonversi ke nilai numerik. Nilai non-numerik yang paling umum adalah: [” -3.8e-05",” -9-05",” -4.7e-05",” -1.4999999999999999e-05",” -4.3e-05"]. Itu biasanya menunjukkan bahwa ada masalah dengan pengumpulan atau pemrosesan data. Amazon SageMaker Autopilot mengabaikan semua pengamatan dengan label target yang tidak valid.

![\[Data autopilot melaporkan peringatan tingkat keparahan rendah tentang nilai target yang tidak valid.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-data-report-target-analysis-invalid-target-values.png)


Autopilot juga menyediakan histogram yang menunjukkan distribusi label untuk klasifikasi. 

Tangkapan layar berikut menunjukkan contoh statistik yang diberikan untuk kolom target Anda termasuk jumlah kelas, nilai yang hilang atau tidak valid. Histogram dengan **Label Target** pada sumbu horizontal dan **Frekuensi** pada sumbu vertikal menunjukkan distribusi setiap kategori label.

![\[Data autopilot melaporkan kardinalitas tinggi untuk klasifikasi.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-data-report-target-analysis-invalid-classification.png)


**catatan**  
Anda dapat menemukan definisi dari semua istilah yang disajikan dalam bagian ini dan lainnya di bagian **Definisi** di bagian bawah buku catatan laporan.

## Sampel Data
<a name="autopilot-data-exploration-report-data-sample"></a>

Autopilot menyajikan sampel aktual data Anda untuk membantu Anda menemukan masalah dengan kumpulan data Anda. Tabel sampel bergulir secara horizontal. Periksa data sampel untuk memverifikasi bahwa semua kolom yang diperlukan ada dalam kumpulan data. 

Autopilot juga menghitung ukuran daya prediksi, yang dapat digunakan untuk mengidentifikasi hubungan linier atau nonlinier antara fitur dan variabel target. Nilai `0` menunjukkan bahwa fitur tersebut tidak memiliki nilai prediktif dalam memprediksi variabel target. Nilai `1` menunjukkan daya prediksi tertinggi untuk variabel target. Untuk informasi lebih lanjut tentang kekuatan prediksi, lihat bagian **Definisi**. 

**catatan**  
Tidak disarankan Anda menggunakan kekuatan prediksi sebagai pengganti kepentingan fitur. Gunakan hanya jika Anda yakin bahwa kekuatan prediksi adalah ukuran yang tepat untuk kasus penggunaan Anda.

Tangkapan layar berikut menunjukkan contoh sampel data. Baris atas berisi kekuatan prediksi setiap kolom dalam kumpulan data Anda. Baris kedua berisi tipe data kolom. Baris berikutnya berisi label. Kolom berisi kolom target diikuti oleh setiap kolom fitur. Setiap kolom fitur memiliki kekuatan prediksi terkait, disorot dalam tangkapan layar ini, dengan sebuah kotak. Dalam contoh ini, kolom yang berisi fitur `x51` memiliki kekuatan prediksi `0.68` untuk variabel `y` target. Fitur `x55` ini sedikit kurang prediktif dengan kekuatan prediksi. `0.59`

![\[Data autopilot melaporkan kekuatan prediksi sampel data.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-data-report-data-sample-prediction.png)


## Baris duplikat
<a name="autopilot-data-exploration-report-duplicate-rows"></a>

Jika baris duplikat ada dalam kumpulan data, Amazon SageMaker Autopilot menampilkan sampelnya.

**catatan**  
Tidak disarankan untuk menyeimbangkan kumpulan data dengan up-sampling sebelum memberikannya ke Autopilot. Hal ini dapat mengakibatkan skor validasi yang tidak akurat untuk model yang dilatih oleh Autopilot, dan model yang diproduksi mungkin tidak dapat digunakan.

## Korelasi kolom silang
<a name="autopilot-data-exploration-report-cross-column-correlations"></a>

Autopilot menggunakan koefisien korelasi Pearson, ukuran korelasi linier antara dua fitur, untuk mengisi matriks korelasi. Dalam matriks korelasi, fitur numerik diplot pada sumbu horizontal dan vertikal, dengan koefisien korelasi Pearson diplot di persimpangan mereka. Semakin tinggi korelasi antara dua fitur, semakin tinggi koefisiennya, dengan nilai maksimum. `|1|`
+ Nilai `-1` menunjukkan bahwa fitur berkorelasi negatif sempurna.
+ Nilai`1`, yang terjadi ketika suatu fitur berkorelasi dengan dirinya sendiri, menunjukkan korelasi positif yang sempurna.

Anda dapat menggunakan informasi dalam matriks korelasi untuk menghapus fitur yang sangat berkorelasi. Sejumlah kecil fitur mengurangi kemungkinan overfitting model dan dapat mengurangi biaya produksi dengan dua cara. Ini mengurangi runtime Autopilot yang dibutuhkan dan, untuk beberapa aplikasi, dapat membuat prosedur pengumpulan data lebih murah. 

Tangkapan layar berikut menunjukkan contoh matriks korelasi antar `7` fitur. Setiap fitur ditampilkan dalam matriks pada sumbu horizontal dan vertikal. Koefisien korelasi Pearson ditampilkan di persimpangan antara dua fitur. Setiap persimpangan fitur memiliki nada warna yang terkait dengannya. Semakin tinggi korelasinya, semakin gelap nadanya. Nada paling gelap menempati diagonal matriks, di mana setiap fitur berkorelasi dengan dirinya sendiri, mewakili korelasi sempurna.

![\[Data autopilot melaporkan matriks korelasi silang data.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-data-report-data-cross-column-statistics.png)


## Baris Anomali
<a name="autopilot-data-exploration-report-cross-anomolous-rows"></a>

Amazon SageMaker Autopilot mendeteksi baris mana dalam kumpulan data Anda yang mungkin anomali. Kemudian memberikan skor anomali untuk setiap baris. Baris dengan skor anomali negatif dianggap anomali. 

Tangkapan layar berikut menunjukkan output dari analisis Autopilot untuk baris yang berisi anomali. Kolom yang berisi skor anomali muncul di sebelah kolom dataset untuk setiap baris.

![\[Dataset autopilot dengan baris anomali, menunjukkan skor anomali negatif.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-data-report-data-anomalous-rows.png)


## Nilai yang hilang, kardinalitas, dan statistik deskriptif
<a name="autopilot-data-exploration-report-description-statistics-and-values"></a>

Amazon SageMaker Autopilot memeriksa dan melaporkan properti masing-masing kolom kumpulan data Anda. Di setiap bagian laporan data yang menyajikan analisis ini, konten disusun secara berurutan. Ini agar Anda dapat memeriksa nilai yang paling “mencurigakan” terlebih dahulu. Dengan menggunakan statistik ini Anda dapat meningkatkan konten kolom individual, dan meningkatkan kualitas model yang dihasilkan oleh Autopilot.

Autopilot menghitung beberapa statistik pada nilai kategoris dalam kolom yang berisi mereka. Ini termasuk jumlah entri unik dan, untuk teks, jumlah kata unik.

Autopilot menghitung beberapa statistik standar pada nilai numerik dalam kolom yang berisi mereka. Gambar berikut menggambarkan statistik ini, termasuk nilai rata-rata, median, minimum dan maksimum, dan persentase jenis numerik dan nilai outlier. 

![\[Data autopilot melaporkan statistik pada kolom dengan nilai numerik.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/autopilot/autopilot-data-report-data-descriptive-statistics.png)


# Temukan dan jalankan buku catatan definisi kandidat
<a name="autopilot-candidate-generation-notebook"></a>

Notebook definisi kandidat berisi setiap langkah preprocessing yang disarankan, algoritma, dan rentang hyperparameter. 

Anda dapat memilih kandidat mana yang akan dilatih dan disetel dengan dua cara. Yang pertama, dengan menjalankan bagian notebook. Kedua, dengan menjalankan seluruh notebook untuk mengoptimalkan semua kandidat untuk mengidentifikasi kandidat terbaik. Jika Anda menjalankan seluruh buku catatan, hanya kandidat terbaik yang ditampilkan setelah pekerjaan selesai. 

Untuk menjalankan Autopilot dari SageMaker Studio Classic, buka notebook definisi kandidat dengan mengikuti langkah-langkah berikut:

1. Pilih ikon **Beranda** ![\[Black square icon representing a placeholder or empty image.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/icons/house.png) dari panel navigasi kiri untuk melihat menu navigasi **Amazon SageMaker Studio Classic** tingkat atas.

1. Pilih kartu **AutoML** dari area kerja utama. Ini membuka tab **Autopilot** baru.

1. Di bagian **Nama**, pilih pekerjaan Autopilot yang memiliki buku catatan definisi kandidat yang ingin Anda periksa. Ini membuka tab pekerjaan **Autopilot** baru.

1. Pilih **Buka buku catatan generasi kandidat** dari bagian kanan atas tab pekerjaan **Autopilot**. Ini membuka pratinjau hanya-baca baru dari Notebook Definisi Kandidat **Amazon SageMaker Autopilot**.

Untuk menjalankan buku catatan definisi kandidat, ikuti langkah-langkah berikut:

1. Pilih **Impor buku catatan** di kanan atas tab Notebook **Definisi Kandidat Amazon SageMaker Autopilot**. Ini membuka tab untuk mengatur lingkungan notebook baru untuk menjalankan notebook.

1. Pilih SageMaker **Gambar** yang ada atau gunakan **Gambar Kustom**. 

1. Pilih **Kernel**, **tipe Instance**, dan skrip **Start-up** opsional.

Anda sekarang dapat menjalankan notebook di lingkungan baru ini.

# Konfigurasikan output inferensi dalam wadah yang dihasilkan
<a name="autopilot-automate-model-development-container-output"></a>

Autopilot menghasilkan daftar yang diurutkan. [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ContainerDefinition.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ContainerDefinition.html) Ini dapat digunakan untuk membangun model untuk diterapkan dalam pipa pembelajaran mesin. Model ini dapat digunakan untuk hosting online dan inferensi. 

Pelanggan dapat membuat daftar definisi kontainer inferensi dengan [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListCandidateForAutoMLJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ListCandidateForAutoMLJob.html)API. Daftar definisi wadah inferensi yang mewakili kandidat terbaik juga tersedia dalam [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJob.html)tanggapan.

## Definisi wadah inferensi untuk jenis masalah regresi dan klasifikasi
<a name="autopilot-problem-type-container-output"></a>

Autopilot menghasilkan wadah inferensi khusus untuk [mode pelatihan](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-model-support-validation.html#autopilot-training-mode) dan [jenis masalah pekerjaan](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-datasets-problem-types.html#autopilot-problem-types).

### Definisi wadah untuk mode optimasi hyperparameter (HPO)
<a name="autopilot-problem-type-container-output-hpo"></a>
+ **Regresi**: HPO menghasilkan dua kontainer:

  1. Wadah rekayasa fitur yang mengubah fitur asli menjadi fitur yang dapat dilatih oleh algoritme regresi.

  1. Wadah algoritme yang mengubah fitur dan menghasilkan skor regresi untuk kumpulan data.
+ **Klasifikasi**: HPO menghasilkan tiga kontainer:

  1. Wadah rekayasa fitur yang mengubah fitur asli menjadi fitur yang dapat dilatih oleh algoritma klasifikasi.

  1. Sebuah wadah algoritma yang menghasilkan `predicted_label` dengan probabilitas tertinggi. Wadah ini juga dapat menghasilkan berbagai probabilitas yang terkait dengan hasil klasifikasi dalam respons inferensi.

  1. Sebuah wadah rekayasa fitur yang melakukan pasca-pemrosesan prediksi algoritma. Misalnya, ia dapat melakukan transformasi terbalik pada label yang diprediksi dan mengubahnya ke label asli. 

### Definisi wadah untuk mode ansambel
<a name="autopilot-problem-type-container-output-ensemble"></a>

Dalam mode ansambel, tipe masalah regresi dan klasifikasi hanya memiliki satu wadah inferensi. Wadah inferensi ini mengubah fitur dan menghasilkan prediksi berdasarkan jenis masalah. 

## Respons inferensi per jenis masalah
<a name="autopilot-problem-type-inference-response"></a>

### Respons inferensi untuk model klasifikasi
<a name="autopilot-problem-type-inference-response-classification"></a>

Untuk wadah inferensi klasifikasi, Anda dapat memilih konten respons inferensi dengan menggunakan empat kunci yang telah ditentukan:
+ `predicted_label`: Label dengan probabilitas tertinggi untuk memprediksi label yang benar, sebagaimana ditentukan oleh Autopilot.
+ `probability`: 
  + **Model HPO:** Probabilitas `True` kelas untuk klasifikasi biner. Probabilitas `predicted_label` untuk klasifikasi multiclass.
  + **Model ansambel:** Probabilitas klasifikasi biner dan multikelas. `predicted_label`
+ `probabilities`: Daftar probabilitas untuk semua kelas yang sesuai.
+ `labels`: Daftar semua label.

Misalnya, untuk masalah klasifikasi biner, jika Anda melewatkan kunci respons inferensi `['predicted_label', 'probability', 'probabilities', 'labels']` dan respons keluaran muncul sebagai`[1, 0.1, "[0.9, 0.1]", "['1', '0']"]`, Anda harus menafsirkannya sebagai berikut:

1. `predicted_label`sama `1` karena label “1" memiliki probabilitas yang lebih tinggi (`0.9`dalam hal ini).

1. Untuk model HPO, `probability` sama dengan `0.1` probabilitas `positive_class` (`0`dalam hal ini) yang dipilih oleh Autopilot.

   Untuk model Ensemble, `probability` sama dengan `0.9` yang merupakan probabilitas dari. `predicted_label`

1. `probabilities`daftar `probability` setiap label di`labels`.

1. `labels`adalah label unik dalam kumpulan data, di mana label kedua (“0" dalam kasus ini) `positive_class` dipilih oleh Autopilot.

Secara default, kontainer inferensi dikonfigurasi untuk menghasilkan hanya file. `predicted_label` Untuk memilih konten inferensi tambahan, Anda dapat memperbarui `inference_response_keys` parameter untuk menyertakan hingga tiga variabel lingkungan ini:
+ `SAGEMAKER_INFERENCE_SUPPORTED`: Ini diatur untuk memberikan petunjuk kepada Anda tentang konten apa yang didukung setiap wadah.
+ `SAGEMAKER_INFERENCE_INPUT`: Ini harus diatur ke kunci yang diharapkan kontainer dalam muatan input.
+ `SAGEMAKER_INFERENCE_OUTPUT`: Ini harus diisi dengan set kunci yang dikeluarkan kontainer.

### Respons inferensi untuk model klasifikasi dalam mode HPO
<a name="autopilot-problem-type-inference-response-classification-hpo"></a>

Bagian ini menunjukkan cara mengonfigurasi respons inferensi dari model klasifikasi menggunakan mode optimasi hyperparameter (HPO).

Untuk memilih konten respons inferensi dalam mode HPO: Tambahkan `SAGEMAKER_INFERENCE_OUTPUT` variabel `SAGEMAKER_INFERENCE_INPUT` dan ke wadah kedua dan ketiga yang dihasilkan dalam mode HPO untuk masalah klasifikasi.

Kunci yang didukung oleh wadah kedua (algoritma) adalah predicted\$1label, probabilitas, dan probabilitas. Perhatikan `labels` bahwa sengaja tidak ditambahkan ke`SAGEMAKER_INFERENCE_SUPPORTED`.

Kunci yang didukung oleh wadah model klasifikasi ketiga adalah`predicted_label`,`labels`,`probability`, dan`probabilities`. Oleh karena itu, `SAGEMAKER_INFERENCE_SUPPORTED` lingkungan menyertakan nama-nama kunci ini.

Untuk memperbarui definisi wadah inferensi untuk menerima `predicted_label` dan`probability`, gunakan contoh kode berikut.

```
containers[1]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label, probability'})
containers[2]['Environment'].update({'SAGEMAKER_INFERENCE_INPUT': 'predicted_label, probability'})
containers[2]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label, probability'})
```

Contoh kode berikut memperbarui definisi wadah inferensi untuk menerima`predicted_label`,`probabilities`, dan`labels`. Jangan meneruskan `labels` ke wadah kedua (wadah algoritma), karena dihasilkan oleh wadah ketiga secara independen. 

```
containers[1]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label,probabilities'})
containers[2]['Environment'].update({'SAGEMAKER_INFERENCE_INPUT': 'predicted_label,probabilities'})
containers[2]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label, probabilities,labels'})
```

Bagian yang dapat dilipat berikut memberikan contoh kode untuk AWS SDK untuk Python (Boto3) dan untuk SageMaker SDK untuk Python. Setiap bagian menunjukkan cara memilih konten tanggapan inferensi dalam mode HPO untuk contoh kode masing-masing.

#### AWS SDK untuk Python (Boto3)
<a name="autopilot-problem-type-inference-response-classification-hpo-boto3"></a>

```
import boto3

sm_client = boto3.client('sagemaker', region_name='<Region>')

role = '<IAM role>'
input_data = '<S3 input uri>'
output_path = '<S3 output uri>'

best_candidate = sm_client.describe_auto_ml_job(AutoMLJobName='<AutoML Job Name>')['BestCandidate']
best_candidate_containers = best_candidate['InferenceContainers']
best_candidate_name = best_candidate['CandidateName']

best_candidate_containers[1]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label, probability'})
best_candidate_containers[2]['Environment'].update({'SAGEMAKER_INFERENCE_INPUT': 'predicted_label, probability'})
best_candidate_containers[2]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label, probability'})

# create model
reponse = sm_client.create_model(
    ModelName = '<Model Name>',
    ExecutionRoleArn = role,
    Containers = best_candidate_containers
)

# Lauch Transform Job
response = sm_client.create_transform_job(
    TransformJobName='<Transform Job Name>',
    ModelName='<Model Name>',
    TransformInput={
        'DataSource': {
            'S3DataSource': {
                'S3DataType': 'S3Prefix',
                'S3Uri': input_data
            }
        },
        'ContentType': "text/CSV",
        'SplitType': 'Line'
    },
    TransformOutput={
        'S3OutputPath': output_path,
        'AssembleWith': 'Line',
    },
    TransformResources={
        'InstanceType': 'ml.m4.xlarge',
        'InstanceCount': 1,
    },
)
```

#### SageMaker SDK untuk Python
<a name="autopilot-problem-type-inference-response-classification-hpo-sdk"></a>

```
from sagemaker import AutoML

aml = AutoML.attach(auto_ml_job_name='<AutoML Job Name>')
aml_best_model = aml.create_model(name='<Model Name>',
                                  candidate=None,
                                  inference_response_keys**=['probabilities', 'labels'])

aml_transformer = aml_best_model.transformer(accept='text/csv',
                                            assemble_with='Line',
                                            instance_type='ml.m5.xlarge',
                                            instance_count=1,)

aml_transformer.transform('<S3 input uri>',
                          content_type='text/csv',
                          split_type='Line',
                          job_name='<Transform Job Name>',
                          wait=True)
```

### Respons inferensi untuk model klasifikasi dalam mode ansambel
<a name="autopilot-problem-type-inference-response-classification-ensemble"></a>

Bagian ini menunjukkan cara mengonfigurasi respons inferensi dari model klasifikasi menggunakan mode ansambel. 

Dalam **mode ansambel**, untuk memilih konten respons inferensi, perbarui variabel lingkungan. `SAGEMAKER_INFERENCE_OUTPUT`

Kunci yang didukung oleh wadah model klasifikasi adalah`predicted_label`,`labels`,`probability`, dan`probabilities`. Kunci-kunci ini termasuk dalam `SAGEMAKER_INFERENCE_SUPPORTED` lingkungan.

Untuk memperbarui definisi kontainer inferensi untuk menerima `predicted_label` dan`probability`, lihat contoh kode berikut.

```
containers[0]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label, probability'})
```

Bagian yang dapat dilipat berikut memberikan contoh kode untuk memilih konten respons inferensi dalam mode ansambel. Contoh menggunakan AWS SDK untuk Python (Boto3).

#### AWS SDK untuk Python (Boto3)
<a name="autopilot-problem-type-inference-response-classification-ensembling-boto3"></a>

```
import boto3
sm_client = boto3.client('sagemaker', region_name='<Region>')

role = '<IAM role>'
input_data = '<S3 input uri>'
output_path = '<S3 output uri>' 

best_candidate = sm_client.describe_auto_ml_job(AutoMLJobName='<AutoML Job Name>')['BestCandidate']
best_candidate_containers = best_candidate['InferenceContainers']
best_candidate_name = best_candidate['CandidateName']

*best_candidate_containers[0]['Environment'].update({'SAGEMAKER_INFERENCE_OUTPUT': 'predicted_label, probability'})
*
# create model
reponse = sm_client.create_model(
    ModelName = '<Model Name>',
    ExecutionRoleArn = role,
    Containers = best_candidate_containers
)

# Lauch Transform Job
response = sm_client.create_transform_job(
    TransformJobName='<Transform Job Name>',
    ModelName='<Model Name>',
    TransformInput={
        'DataSource': {
            'S3DataSource': {
                'S3DataType': 'S3Prefix',
                'S3Uri': input_data
            }
        },
        'ContentType': "text/CSV",
        'SplitType': 'Line'
    },
    TransformOutput={
        'S3OutputPath': output_path,
        'AssembleWith': 'Line',
    },
    TransformResources={
        'InstanceType': 'ml.m4.xlarge',
        'InstanceCount': 1,
    },
)
```

Bagian collapsible berikut memberikan contoh kode yang identik dengan SageMaker SDK untuk contoh Python untuk HPO. Ini termasuk untuk kenyamanan Anda.

#### SageMaker SDK untuk Python
<a name="autopilot-problem-type-inference-response-classification-ensembling-sdk"></a>

Contoh kode HPO berikut menggunakan SageMaker SDK untuk Python.

```
from sagemaker import AutoML

aml = AutoML.attach(auto_ml_job_name='<AutoML Job Name>')
aml_best_model = aml.create_model(name='<Model Name>',
                                  candidate=None,
                                  *inference_response_keys**=['probabilities', 'labels'])*

aml_transformer = aml_best_model.transformer(accept='text/csv',
                                            assemble_with='Line',
                                            instance_type='ml.m5.xlarge',
                                            instance_count=1,)

aml_transformer.transform('<S3 input uri>',
                          content_type='text/csv',
                          split_type='Line',
                          job_name='<Transform Job Name>',
                          wait=True)
```