Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Penyebaran dan prediksi model autopilot
<a name="autopilot-llms-finetuning-deploy-models"></a>

Setelah menyempurnakan model bahasa besar (LLM), Anda dapat menerapkan model untuk pembuatan teks waktu nyata dengan menyiapkan titik akhir untuk mendapatkan prediksi interaktif.

**catatan**  
Kami merekomendasikan menjalankan pekerjaan inferensi waktu nyata `ml.g5.12xlarge` untuk kinerja yang lebih baik. Atau, `ml.g5.8xlarge` instance cocok untuk tugas pembuatan teks Falcon-7B-Instruct dan MPT-7B-Instruct.  
Anda dapat menemukan spesifikasi instans ini dalam kategori [Komputasi Akselerasi](https://aws.amazon.com/ec2/instance-types/) dalam pemilihan jenis instans yang disediakan oleh Amazon EC2.

## Pembuatan teks waktu nyata
<a name="autopilot-llms-finetuning-realtime"></a>

Anda dapat menggunakan SageMaker APIs untuk menerapkan model fine-tuned Anda secara manual ke titik akhir [inferensi real-time Hosting SageMaker AI Hosting, lalu mulai membuat prediksi dengan memanggil titik akhir](https://docs.aws.amazon.com/sagemaker/latest/dg/realtime-endpoints.html) sebagai berikut.

**catatan**  
Atau, Anda dapat memilih opsi penerapan otomatis saat membuat eksperimen fine-tuning Anda di Autopilot. Untuk informasi tentang pengaturan penerapan otomatis model, lihat[Cara mengaktifkan penyebaran otomatis](autopilot-create-experiment-finetune-llms.md#autopilot-llms-finetuning-auto-model-deployment).   
Anda juga dapat menggunakan SageMaker Python SDK dan `JumpStartModel` kelas untuk melakukan inferensi dengan model yang disetel dengan baik oleh Autopilot. Ini dapat dilakukan dengan menentukan lokasi khusus untuk artefak model di Amazon S3. Untuk informasi tentang mendefinisikan model Anda sebagai model dan menerapkan JumpStart model Anda untuk inferensi, lihat [Penerapan kode rendah](https://sagemaker.readthedocs.io/en/stable/overview.html#deploy-a-pre-trained-model-directly-to-a-sagemaker-endpoint) dengan kelas. JumpStartModel 

1. **Dapatkan definisi wadah inferensi kandidat**

   Anda dapat menemukan bagian `InferenceContainerDefinitions` dalam `BestCandidate` objek yang diambil dari respons terhadap panggilan API [DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html#API_DescribeAutoMLJobV2_ResponseSyntax). Definisi kontainer untuk inferensi mengacu pada lingkungan kontainer yang dirancang untuk menerapkan dan menjalankan model terlatih Anda untuk membuat prediksi.

   Contoh AWS CLI perintah berikut menggunakan [DescribeAutoMLJobV2](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeAutoMLJobV2.html) API untuk mendapatkan definisi kontainer yang direkomendasikan untuk nama pekerjaan Anda.

   ```
   aws sagemaker describe-auto-ml-job-v2 --auto-ml-job-name job-name --region region
   ```

1. **Buat model SageMaker AI**

   Gunakan definisi container dari langkah sebelumnya untuk membuat model SageMaker AI dengan menggunakan [CreateModel](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateModel.html)API. Lihat AWS CLI perintah berikut sebagai contoh. Gunakan `CandidateName` untuk nama model Anda.

   ```
   aws sagemaker create-model --model-name '<your-candidate-name>' \
                       --primary-container '<container-definition' \
                       --execution-role-arn '<execution-role-arn>' --region '<region>
   ```

1. **Buat konfigurasi titik akhir**

   Contoh AWS CLI perintah berikut menggunakan [CreateEndpointConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpointConfig.html)API untuk membuat konfigurasi endpoint.
**catatan**  
Untuk mencegah pembuatan titik akhir dari waktu kehabisan waktu karena unduhan model yang panjang, kami sarankan pengaturan `ModelDataDownloadTimeoutInSeconds = 3600` dan. `ContainerStartupHealthCheckTimeoutInSeconds = 3600`

   ```
   aws sagemaker create-endpoint-config --endpoint-config-name '<your-endpoint-config-name>' \
                       --production-variants '<list-of-production-variants>' ModelDataDownloadTimeoutInSeconds=3600 ContainerStartupHealthCheckTimeoutInSeconds=3600 \
                       --region '<region>'
   ```

1. **Buat titik akhir** 

    AWS CLI Contoh berikut menggunakan [CreateEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateEndpoint.html)API untuk membuat titik akhir.

   ```
   aws sagemaker create-endpoint --endpoint-name '<your-endpoint-name>' \
                       --endpoint-config-name '<endpoint-config-name-you-just-created>' \
                       --region '<region>'
   ```

   Periksa kemajuan penerapan titik akhir Anda dengan menggunakan API. [DescribeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeEndpoint.html) Lihat AWS CLI perintah berikut sebagai contoh.

   ```
   aws sagemaker describe-endpoint —endpoint-name '<endpoint-name>' —region <region>
   ```

   Setelah `EndpointStatus` perubahan`InService`, titik akhir siap digunakan untuk inferensi waktu nyata.

1. **Memanggil titik akhir** 

   Perintah berikut memanggil titik akhir untuk inferensi real-time. Prompt Anda perlu dikodekan dalam byte.
**catatan**  
Format prompt input Anda tergantung pada model bahasa. Untuk informasi selengkapnya tentang format prompt pembuatan teks, lihat[Format permintaan untuk model pembuatan teks inferensi waktu nyata](#autopilot-llms-finetuning-realtime-prompt-examples). 

   ```
   aws sagemaker invoke-endpoint --endpoint-name '<endpoint-name>' \ 
                     --region '<region>' --body '<your-promt-in-bytes>' [--content-type] 'application/json' <outfile>
   ```

## Format permintaan untuk model pembuatan teks inferensi waktu nyata
<a name="autopilot-llms-finetuning-realtime-prompt-examples"></a>

Model bahasa besar yang berbeda (LLMs) mungkin memiliki dependensi perangkat lunak tertentu, lingkungan runtime, dan persyaratan perangkat keras yang memengaruhi wadah yang direkomendasikan Autopilot untuk meng-host model untuk inferensi. Selain itu, setiap model menentukan format data input yang diperlukan dan format yang diharapkan untuk prediksi dan output.

Berikut adalah contoh input untuk beberapa model dan wadah yang direkomendasikan.
+ Untuk model Falcon dengan wadah `huggingface-pytorch-tgi-inference:2.0.1-tgi1.0.3-gpu-py39-cu118-ubuntu20.04` yang direkomendasikan:

  ```
  payload = {
      "inputs": "Large language model fine-tuning is defined as",
      "parameters": {
          "do_sample": false,
          "top_p": 0.9,
          "temperature": 0.1,
          "max_new_tokens": 128,
          "stop": ["<|endoftext|>", "</s>"]
      }
  }
  ```
+ Untuk semua model lain dengan wadah yang direkomendasikan`djl-inference:0.22.1-fastertransformer5.3.0-cu118`:

  ```
  payload= {
      "text_inputs": "Large language model fine-tuning is defined as"
  }
  ```