Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Menetapkan Kebijakan Auto Scaling untuk Penerapan Titik Akhir Multi-Model
<a name="multi-model-endpoints-autoscaling"></a>

SageMaker Titik akhir multi-model AI sepenuhnya mendukung penskalaan otomatis, yang mengelola replika model untuk memastikan skala model berdasarkan pola lalu lintas. Sebaiknya Anda mengonfigurasi titik akhir multi-model dan ukuran instans berdasarkan [Rekomendasi instans untuk penerapan titik akhir multi-model](multi-model-endpoint-instance.md) dan juga menyiapkan penskalaan otomatis berbasis instans untuk titik akhir Anda. Tingkat pemanggilan yang digunakan untuk memicu peristiwa skala otomatis didasarkan pada kumpulan prediksi agregat di seluruh set lengkap model yang dilayani oleh titik akhir. Untuk detail tambahan tentang menyiapkan penskalaan otomatis titik akhir, lihat Menskalakan Model [ SageMaker AI Amazon Secara Otomatis](https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html).

Anda dapat menyiapkan kebijakan penskalaan otomatis dengan metrik yang telah ditentukan dan kustom pada titik akhir multi-model yang didukung CPU dan GPU.

**catatan**  
SageMaker Metrik titik akhir multi-model AI tersedia dengan perincian satu menit.

## Menentukan kebijakan penskalaan
<a name="multi-model-endpoints-autoscaling-define"></a>

Untuk menentukan metrik dan nilai target untuk kebijakan penskalaan, Anda dapat mengonfigurasi kebijakan penskalaan pelacakan target. Anda dapat menggunakan metrik yang telah ditentukan sebelumnya atau metrik khusus.

Konfigurasi kebijakan penskalaan diwakili oleh blok JSON. Anda menyimpan konfigurasi kebijakan penskalaan Anda sebagai blok JSON dalam file teks. Anda menggunakan file teks tersebut saat menjalankan AWS CLI atau Application Auto Scaling API. Untuk informasi selengkapnya tentang sintaksis konfigurasi kebijakan, lihat `[TargetTrackingScalingPolicyConfiguration](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_TargetTrackingScalingPolicyConfiguration.html)` dalam *Referensi API Application Auto Scaling*.

Opsi berikut tersedia untuk menetapkan konfigurasi kebijakan penskalaan pelacakan target.

### Gunakan metrik yang telah ditentukan
<a name="multi-model-endpoints-autoscaling-predefined"></a>

Untuk menentukan kebijakan penskalaan pelacakan target untuk varian dengan cepat, gunakan metrik yang telah ditentukan sebelumnya. `SageMakerVariantInvocationsPerInstance` `SageMakerVariantInvocationsPerInstance`adalah jumlah rata-rata kali per menit bahwa setiap instance untuk varian dipanggil. Kami sangat menyarankan menggunakan metrik ini.

Untuk menggunakan metrik yang telah ditentukan dalam kebijakan penskalaan, buat konfigurasi pelacakan target untuk kebijakan Anda. Dalam konfigurasi pelacakan target, sertakan `PredefinedMetricSpecification` untuk metrik yang telah ditentukan dan a `TargetValue` untuk nilai target metrik tersebut.

Contoh berikut adalah konfigurasi kebijakan tipikal untuk penskalaan pelacakan target untuk varian. Dalam konfigurasi ini, kami menggunakan metrik yang `SageMakerVariantInvocationsPerInstance` telah ditentukan untuk menyesuaikan jumlah instance varian sehingga setiap instance memiliki `InvocationsPerInstance` metrik. `70`

```
{"TargetValue": 70.0,
    "PredefinedMetricSpecification":
    {
        "PredefinedMetricType": "InvocationsPerInstance"
    }
}
```

**catatan**  
Kami menyarankan Anda menggunakan `InvocationsPerInstance` saat menggunakan titik akhir multi-model. Metrik ini tergantung pada persyaratan latensi aplikasi Anda. `TargetValue` Kami juga menyarankan Anda memuat pengujian titik akhir untuk menyiapkan nilai parameter penskalaan yang sesuai. Untuk mempelajari lebih lanjut tentang pengujian beban dan menyiapkan penskalaan otomatis untuk titik akhir Anda, lihat blog [Mengonfigurasi titik akhir inferensi penskalaan](https://aws.amazon.com/blogs/machine-learning/configuring-autoscaling-inference-endpoints-in-amazon-sagemaker/) otomatis di Amazon AI. SageMaker 

### Gunakan metrik khusus
<a name="multi-model-endpoints-autoscaling-custom"></a>

Jika Anda perlu menentukan kebijakan penskalaan pelacakan target yang memenuhi persyaratan kustom Anda, tentukan metrik kustom. Anda dapat menentukan metrik kustom berdasarkan metrik varian produksi apa pun yang berubah sebanding dengan penskalaan.

Tidak semua metrik SageMaker AI berfungsi untuk pelacakan target. Metrik harus merupakan metrik pemanfaatan yang valid, dan harus menggambarkan seberapa sibuk sebuah instance. Nilai metrik harus meningkat atau menurun dalam proporsi terbalik dengan jumlah contoh varian. Artinya, nilai metrik harus berkurang ketika jumlah instance meningkat.

**penting**  
Sebelum menerapkan penskalaan otomatis dalam produksi, Anda harus menguji penskalaan otomatis dengan metrik khusus Anda.

#### Contoh metrik kustom untuk titik akhir multi-model yang didukung CPU
<a name="multi-model-endpoints-autoscaling-custom-cpu"></a>

Contoh berikut adalah konfigurasi pelacakan target untuk kebijakan penskalaan. Dalam konfigurasi ini, untuk model bernama`my-model`, metrik kustom `CPUUtilization` menyesuaikan jumlah instance pada titik akhir berdasarkan pemanfaatan CPU rata-rata 50% di semua instance.

```
{"TargetValue": 50,
    "CustomizedMetricSpecification":
    {"MetricName": "CPUUtilization",
        "Namespace": "/aws/sagemaker/Endpoints",
        "Dimensions": [
            {"Name": "EndpointName", "Value": "my-endpoint" },
            {"Name": "ModelName","Value": "my-model"}
        ],
        "Statistic": "Average",
        "Unit": "Percent"
    }
}
```

#### Contoh metrik kustom untuk titik akhir multi-model yang didukung GPU
<a name="multi-model-endpoints-autoscaling-custom-gpu"></a>

Contoh berikut adalah konfigurasi pelacakan target untuk kebijakan penskalaan. Dalam konfigurasi ini, untuk model bernama`my-model`, metrik kustom `GPUUtilization` menyesuaikan jumlah instance pada titik akhir berdasarkan pemanfaatan GPU rata-rata 50% di semua instance.

```
{"TargetValue": 50,
    "CustomizedMetricSpecification":
    {"MetricName": "GPUUtilization",
        "Namespace": "/aws/sagemaker/Endpoints",
        "Dimensions": [
            {"Name": "EndpointName", "Value": "my-endpoint" },
            {"Name": "ModelName","Value": "my-model"}
        ],
        "Statistic": "Average",
        "Unit": "Percent"
    }
}
```

## Tambahkan periode cooldown
<a name="multi-model-endpoints-autoscaling-cooldown"></a>

Untuk menambahkan periode cooldown untuk menskalakan titik akhir Anda, tentukan nilai, dalam detik, untuk. `ScaleOutCooldown` Demikian pula, untuk menambahkan periode cooldown untuk penskalaan dalam model Anda, tambahkan nilai, dalam detik, untuk. `ScaleInCooldown` Untuk informasi selengkapnya tentang `ScaleInCooldown` dan `ScaleOutCooldown`, lihat `[TargetTrackingScalingPolicyConfiguration](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_TargetTrackingScalingPolicyConfiguration.html)` dalam *Referensi API Application Auto Scaling*.

Berikut ini adalah contoh konfigurasi pelacakan target untuk kebijakan penskalaan. Dalam konfigurasi ini, metrik yang `SageMakerVariantInvocationsPerInstance` telah ditentukan digunakan untuk menyesuaikan penskalaan berdasarkan rata-rata `70` di semua instance varian tersebut. Konfigurasi ini menyediakan periode pendinginan penskalaan ke dalam selama 10 menit dan periode pendinginan penskalaan ke luar selama 5 menit.

```
{"TargetValue": 70.0,
    "PredefinedMetricSpecification":
    {"PredefinedMetricType": "SageMakerVariantInvocationsPerInstance"
    },
    "ScaleInCooldown": 600,
    "ScaleOutCooldown": 300
}
```