

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Augmented Manifest Files untuk Pekerjaan Pelatihan
<a name="augmented-manifest"></a>

Untuk menyertakan metadata dengan kumpulan data Anda dalam pekerjaan pelatihan, gunakan file manifes tambahan. Saat menggunakan file manifes yang ditambah, kumpulan data Anda harus disimpan di Amazon Simple Storage Service (Amazon S3), dan Anda harus mengonfigurasi tugas latihan untuk menggunakan kumpulan data yang disimpan di sana. Anda menentukan lokasi dan format kumpulan data ini untuk satu atau lebih [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_Channel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_Channel.html). Manifestasi yang diperbesar hanya dapat mendukung mode input Pipa. Lihat bagian, **InputMode**di [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_Channel.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_Channel.html)untuk mempelajari lebih lanjut tentang mode input pipa. 

Saat menentukan parameter saluran, Anda menentukan jalur ke file, yang disebut a`S3Uri`. Amazon SageMaker AI menafsirkan URI ini berdasarkan yang ditentukan `S3DataType` dalam [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_S3DataSource.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_S3DataSource.html). `AugmentedManifestFile`Opsi mendefinisikan format manifes yang mencakup metadata dengan data input. Menggunakan file manifes yang diperbesar adalah alternatif untuk preprocessing saat Anda telah memberi label data. Untuk pekerjaan pelatihan menggunakan data berlabel, Anda biasanya perlu melakukan pra-proses kumpulan data untuk menggabungkan data input dengan metadata sebelum pelatihan. Jika dataset pelatihan Anda besar, preprocessing bisa memakan waktu dan mahal.

## Format File Manifes Ditambah
<a name="augmented-manifest-format"></a>

File manifes tambahan harus diformat dalam format [JSON Lines](http://jsonlines.org/). Dalam format JSON Lines, setiap baris dalam file adalah objek JSON lengkap diikuti oleh pemisah baris baru.

Selama pelatihan, SageMaker AI mem-parsing setiap baris JSON dan mengirimkan beberapa atau semua atributnya ke algoritme pelatihan. Anda menentukan konten atribut mana yang akan diteruskan dan urutan untuk meneruskannya dengan `AttributeNames` parameter [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html)API. `AttributeNames`Parameter adalah daftar urutan nama atribut yang dicari SageMaker AI di objek JSON untuk digunakan sebagai input pelatihan.

Misalnya, jika Anda mencantumkan `["line", "book"]``AttributeNames`, data input harus menyertakan nama atribut `line` dan `book` dalam urutan yang ditentukan. Untuk contoh ini, konten file manifes tambahan berikut ini valid:

```
{"author": "Herman Melville", "line": "Call me Ishmael", "book": "Moby Dick"}
{"line": "It was love at first sight.", "author": "Joseph Heller", "book": "Catch-22"}
```

SageMaker AI mengabaikan nama atribut yang tidak terdaftar bahkan jika mereka mendahului, mengikuti, atau berada di antara atribut yang terdaftar.

Saat menggunakan file manifes tambahan, perhatikan pedoman berikut:
+ Urutan atribut yang tercantum dalam `AttributeNames` parameter menentukan urutan atribut yang diteruskan ke algoritme dalam pekerjaan pelatihan.
+ Yang terdaftar `AttributeNames` dapat menjadi bagian dari semua atribut di baris JSON. SageMaker AI mengabaikan atribut yang tidak terdaftar dalam file.
+ Anda dapat menentukan semua jenis data yang diizinkan oleh format JSON`AttributeNames`, termasuk teks, numerik, array data, atau objek.
+ Untuk menyertakan URI S3 sebagai nama atribut, tambahkan akhiran `-ref` ke dalamnya.

Jika nama atribut berisi akhiran`-ref`, nilai atribut harus berupa URI S3 ke file data yang dapat diakses oleh pekerjaan pelatihan. Misalnya, jika `AttributeNames` berisi`["image-ref", "is-a-cat"]`, contoh berikut menunjukkan file manifes augmented valid:

```
{"image-ref": "s3://amzn-s3-demo-bucket/sample01/image1.jpg", "is-a-cat": 1}
{"image-ref": "s3://amzn-s3-demo-bucket/sample02/image2.jpg", "is-a-cat": 0}
```

Dalam kasus baris JSON pertama dari file manifes ini, SageMaker AI mengambil `image1.jpg` file dari `s3://amzn-s3-demo-bucket/sample01/` dan representasi string `is-a-cat` atribut `"1"` untuk klasifikasi gambar.

**Tip**  
Untuk membuat file manifes tambahan, gunakan Amazon SageMaker Ground Truth dan buat pekerjaan pelabelan. Untuk informasi lebih lanjut tentang output dari pekerjaan pelabelan, lihat[Pelabelan data keluaran pekerjaan](sms-data-output.md).

# Format File Manifest Tertambah untuk Pelatihan Mode Pipa
<a name="augmented-manifest-stream"></a>

Format manifes yang diperbesar memungkinkan Anda melakukan pelatihan dalam mode Pipa menggunakan file tanpa perlu membuat file RecorDio. Anda perlu menentukan saluran kereta dan validasi sebagai nilai untuk `InputDataConfig` parameter [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html)permintaan. File manifes yang diperbesar hanya didukung untuk saluran yang menggunakan mode input Pipe. Untuk setiap saluran, data diekstraksi dari file manifes yang ditambah dan dialirkan (secara berurutan) ke algoritme melalui pipa bernama saluran. Mode pipa menggunakan metode first in first out (FIFO), sehingga catatan diproses sesuai urutan antrian. Untuk informasi tentang mode input Pipa, lihat [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_Channel.html#SageMaker-Type-Channel-InputMode](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_Channel.html#SageMaker-Type-Channel-InputMode).

Nama atribut dengan titik `"-ref"` akhiran ke data biner yang telah diformat sebelumnya. Dalam beberapa kasus, algoritma tahu cara mengurai data. Dalam kasus lain, Anda mungkin perlu membungkus data sehingga catatan dibatasi untuk algoritme. Jika algoritme kompatibel dengan [data berformat Recordio](https://mxnet.apache.org/api/architecture/note_data_loading#data-format), menentukan `RecordIO` untuk memecahkan masalah ini. `RecordWrapperType` Jika algoritme tidak kompatibel dengan `RecordIO` format, tentukan `None` `RecordWrapperType` dan pastikan data Anda diurai dengan benar untuk algoritme Anda.

Menggunakan `["image-ref", "is-a-cat"]` contoh, jika Anda menggunakan pembungkus RecorDo, aliran data berikut dikirim ke antrian:

`recordio_formatted(s3://amzn-s3-demo-bucket/foo/image1.jpg)recordio_formatted("1")recordio_formatted(s3://amzn-s3-demo-bucket/bar/image2.jpg)recordio_formatted("0")`

Gambar yang tidak dibungkus dengan format RecorDo, dialirkan dengan nilai `is-a-cat` atribut yang sesuai sebagai satu record. Ini dapat menyebabkan masalah karena algoritme mungkin tidak membatasi gambar dan atribut dengan benar. Untuk informasi selengkapnya tentang penggunaan file manifes tambahan untuk klasifikasi gambar, lihat [Melatih dengan Augmented Manifest Image Format](https://docs.aws.amazon.com/sagemaker/latest/dg/image-classification.html#IC-augmented-manifest-training).

Dengan file manifes yang ditambah dan mode Pipa secara umum, batas ukuran volume EBS tidak berlaku. Ini termasuk pengaturan yang sebaliknya harus berada dalam batas ukuran volume EBS seperti [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_S3DataSource.html#SageMaker-Type-S3DataSource-S3DataDistributionType                 ](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_S3DataSource.html#SageMaker-Type-S3DataSource-S3DataDistributionType                 ). Untuk informasi selengkapnya tentang mode Pipa dan cara menggunakannya, lihat [Menggunakan Algoritma Pelatihan Anda Sendiri - Konfigurasi Data Input](your-algorithms-training-algo.html#your-algorithms-training-algo-running-container-inputdataconfig).

## Gunakan File Augmented Manifest
<a name="augmented-manifest-create"></a>

Bagian berikut menunjukkan cara menggunakan file manifes tambahan dalam pekerjaan SageMaker pelatihan Amazon Anda, baik dengan konsol SageMaker AI atau secara terprogram menggunakan Python SageMaker SDK.

### Menggunakan File Augmented Manifest (Konsol)
<a name="augmented-manifest-console"></a>

Untuk menyelesaikan prosedur ini, Anda perlu:
+ URL bucket S3 tempat Anda menyimpan file manifes tambahan.
+ Untuk menyimpan data yang tercantum dalam file manifes tambahan di bucket S3.
+ URL bucket S3 tempat Anda ingin menyimpan output pekerjaan.

**Untuk menggunakan file manifes tambahan dalam pekerjaan pelatihan (konsol)**

1. Buka konsol Amazon SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Di panel navigasi, pilih **Pelatihan**, lalu pilih **Pekerjaan pelatihan**. 

1. Pilih **Buat pekerjaan pelatihan**.

1. Berikan nama untuk pekerjaan pelatihan. Nama harus unik dalam suatu AWS Wilayah di AWS akun. Ini dapat memiliki 1 hingga 63 karakter. Karakter yang valid: a-z, A-Z, 0-9, dan.: \$1 = @ \$1% - (tanda hubung).

1. Pilih algoritma yang ingin Anda gunakan. Untuk informasi tentang algoritme bawaan yang didukung, lihat[Algoritma bawaan dan model yang telah dilatih sebelumnya di Amazon SageMaker](algos.md). Jika Anda ingin menggunakan algoritma khusus, pastikan itu kompatibel dengan mode Pipa.

1. (Opsional) Untuk **konfigurasi Sumber Daya**, terima nilai default atau, untuk mengurangi waktu komputasi, tingkatkan konsumsi sumber daya.

   1. (Opsional) Untuk **tipe Instance**, pilih tipe instans komputasi ML yang ingin Anda gunakan. Dalam kebanyakan kasus, **ml.m4.xlarge** sudah cukup. 

   1. Untuk **hitungan Instance**, gunakan default,`1`.

   1. (Opsional) Untuk **volume tambahan per instans (GB)**, pilih ukuran volume penyimpanan ML yang ingin Anda berikan. Dalam kebanyakan kasus, Anda dapat menggunakan default,`1`. Jika Anda menggunakan dataset besar, gunakan ukuran yang lebih besar.

1. Berikan informasi tentang data input untuk kumpulan data pelatihan.

   1. Untuk **nama Channel**, terima default (**train**) atau masukkan nama yang lebih bermakna, seperti**training-augmented-manifest-file**.

   1. Untuk **InputMode**, pilih **Pipa**.

   1. Untuk **tipe distribusi data S3**, pilih **FullyReplicated**. Saat berlatih secara bertahap, replikasi sepenuhnya menyebabkan setiap instance komputasi ML menggunakan salinan lengkap dari kumpulan data yang diperluas. Untuk algoritma berbasis saraf, seperti[Algoritma Model Topik Saraf (NTM)](ntm.md), pilih. `ShardedByS3Key`

   1. **Jika data yang ditentukan dalam file manifes tambahan tidak dikompresi, setel **tipe Kompresi** ke Tidak Ada.** **Jika data dikompresi menggunakan gzip, atur ke Gzip.**

   1. (Opsional) Untuk **jenis Konten**, tentukan tipe MIME yang sesuai. Jenis konten adalah jenis multipurpose internet mail extension (MIME) dari data.

   1. **Untuk **Record wrapper**, jika dataset yang ditentukan dalam file manifes ditambah disimpan dalam format RecorDo, pilih RecorDo.** **Jika kumpulan data Anda tidak disimpan sebagai file berformat Recordio, pilih Tidak Ada.**

   1. Untuk **tipe data S3**, pilih **AugmentedManifestFile**.

   1. Untuk **lokasi S3**, berikan jalur ke bucket tempat Anda menyimpan file manifes tambahan.

   1. Untuk **nama AugmentedManifestFile atribut**, tentukan nama atribut yang ingin Anda gunakan. Nama atribut harus ada dalam file manifes yang ditambah, dan peka huruf besar/kecil.

   1. (Opsional) Untuk menambahkan lebih banyak nama atribut, pilih **Tambahkan baris** dan tentukan nama atribut lain untuk setiap atribut.

   1. (Opsional) Untuk menyesuaikan urutan nama atribut, pilih tombol atas atau bawah di sebelah nama. Saat menggunakan file manifes yang ditambah, urutan nama atribut yang ditentukan adalah penting.

   1. Pilih **Selesai**.

1. Untuk **konfigurasi data Output**, berikan informasi berikut:

   1. Untuk **lokasi S3**, ketik path ke bucket S3 tempat Anda ingin menyimpan data output.

   1. (Opsional) Anda dapat menggunakan kunci enkripsi AWS Key Management Service (AWS KMS) untuk mengenkripsi data keluaran saat istirahat. Untuk **kunci Enkripsi**, berikan ID kunci atau Nomor Sumber Daya Amazon (ARN). Untuk informasi selengkapnya, lihat Kunci [Enkripsi Terkelola KMS](https://docs.aws.amazon.com/AmazonS3/latest/dev/UsingKMSEncryption.html).

1. (Opsional) Untuk **Tag**, tambahkan satu atau beberapa tag ke pekerjaan pelatihan. *Tag* adalah metadata yang dapat Anda tentukan dan tetapkan ke sumber daya. AWS Dalam hal ini, Anda dapat menggunakan tag untuk membantu Anda mengelola pekerjaan pelatihan Anda. Tag terdiri dari kunci dan nilai, yang Anda tentukan. Misalnya, Anda mungkin ingin membuat tag dengan **Project** sebagai kunci dan nilai yang mengacu pada proyek yang terkait dengan pekerjaan pelatihan, seperti**Home value forecasts**.

1. Pilih **Buat pekerjaan pelatihan**. SageMaker AI menciptakan dan menjalankan pekerjaan pelatihan.

Setelah pekerjaan pelatihan selesai, SageMaker AI menyimpan artefak model di bucket yang jalurnya Anda sediakan untuk **jalur keluaran S3 di bidang** **konfigurasi data Output**. Untuk menerapkan model untuk mendapatkan prediksi, lihat. [Terapkan model ke Amazon EC2](ex1-model-deployment.md)

### Menggunakan File Augmented Manifest (API)
<a name="augmented-manifest-api"></a>

Berikut ini menunjukkan cara melatih model dengan file manifes tambahan menggunakan pustaka Python tingkat tinggi SageMaker AI:

```
import sagemaker

# Create a model object set to using "Pipe" mode.
model = sagemaker.estimator.Estimator(
    training_image,
    role,
    instance_count=1,
    instance_type='ml.p3.2xlarge',
    volume_size = 50,
    max_run = 360000,
    input_mode = 'Pipe',
    output_path=s3_output_location,
    sagemaker_session=session
)

# Create a train data channel with S3_data_type as 'AugmentedManifestFile' and attribute names.
train_data = sagemaker.inputs.TrainingInput(
    your_augmented_manifest_file,
    distribution='FullyReplicated',
    content_type='application/x-recordio',
    s3_data_type='AugmentedManifestFile',
    attribute_names=['source-ref', 'annotations'],
    input_mode='Pipe',
    record_wrapping='RecordIO'
)

data_channels = {'train': train_data}

# Train a model.
model.fit(inputs=data_channels, logs=True)
```

Setelah pekerjaan pelatihan selesai, SageMaker AI menyimpan artefak model di bucket yang jalurnya Anda sediakan untuk **jalur keluaran S3 di bidang** **konfigurasi data Output**. Untuk menerapkan model untuk mendapatkan prediksi, lihat. [Terapkan model ke Amazon EC2](ex1-model-deployment.md)