

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Mempersiapkan data untuk fine-tuning multimodal
<a name="fine-tune-prepare-data-understanding"></a>

Berikut ini adalah pedoman dan persyaratan untuk menyiapkan data untuk menyempurnakan model Pemahaman:

1. Ukuran data minimum untuk fine-tuning tergantung pada tugas (yaitu, kompleks atau sederhana) tetapi kami sarankan Anda memiliki setidaknya 100 sampel untuk setiap tugas yang Anda ingin model pelajari.

1. Sebaiknya gunakan prompt yang dioptimalkan dalam pengaturan zero-shot selama pelatihan dan inferensi untuk mencapai hasil terbaik.

1. Kumpulan data traning dan validasi harus berupa file JSONL, di mana setiap baris adalah objek JSON yang sesuai dengan catatan. Nama file ini hanya dapat terdiri dari karakter alfanumerik, garis bawah, tanda hubung, garis miring, dan titik.

1. Kendala gambar dan video

   1. Dataset tidak dapat berisi modalitas media yang berbeda. Artinya, kumpulan data dapat berupa teks dengan gambar atau teks dengan video.

   1. Satu sampel (catatan tunggal dalam pesan) dapat memiliki banyak gambar

   1. Satu sampel (catatan tunggal dalam pesan) hanya dapat memiliki 1 video

1. `schemaVersion`bisa berupa nilai string apa saja

1. `system`Giliran (*opsional*) dapat berupa prompt sistem khusus yang disediakan pelanggan.

1. Peran yang didukung adalah `user` dan`assistant`.

1. Giliran pertama `messages` harus selalu dimulai dengan`"role": "user"`. Giliran terakhir adalah respons bot, dilambangkan dengan “peran”: “asisten”.

1. Itu `image.source.s3Location.uri` dan `video.source.s3Location.uri` harus dapat diakses oleh Amazon Bedrock.

1.  Peran layanan Amazon Bedrock Anda harus dapat mengakses file gambar di Amazon S3. Untuk informasi selengkapnya tentang pemberian akses, lihat [Membuat peran layanan untuk penyesuaian model](https://docs.aws.amazon.com/bedrock/latest/userguide/model-customization-iam-role.html) 

1. Gambar atau video harus berada dalam bucket Amazon S3 yang sama dengan kumpulan data Anda. Misalnya, jika dataset Anda ada di dalam`s3://amzn-s3-demo-bucket/train/train.jsonl`, maka gambar atau video Anda harus di `s3://amzn-s3-demo-bucket`

1. Istilah`User:`,,`Bot:`,`Assistant:`,`System:`, `<image>``<video>`, dan `[EOS]` merupakan kata kunci yang dicadangkan. Jika prompt pengguna atau prompt sistem dimulai dengan salah satu kata kunci ini, atau memiliki kata kunci ini di mana saja dalam petunjuknya, pekerjaan pelatihan Anda akan gagal karena masalah data. Jika Anda perlu menggunakan kata kunci ini untuk kasus penggunaan Anda, Anda harus menggantinya dengan kata kunci yang berbeda dengan arti yang sama sehingga pelatihan Anda dapat dilanjutkan.

**catatan**  
[Untuk memvalidasi kumpulan data Anda sebelum mengirimkan pekerjaan fine-tuning, Anda dapat menggunakan skrip validasi kumpulan data yang tersedia di.](https://github.com/aws-samples/amazon-nova-samples/tree/main/customization/bedrock-finetuning/understanding/dataset_validation) GitHub

**Topics**
+ [Contoh format dataset](#customize-fine-tune-examples)
+ [Kendala set data](#custom-fine-tune-constraints)

## Contoh format dataset
<a name="customize-fine-tune-examples"></a>

Contoh format kumpulan data berikut memberikan panduan untuk Anda ikuti.

### Format fine tuning khusus teks
<a name="example4"></a>

Contoh berikut adalah untuk fine tuning khusus atas teks saja.

```
// train.jsonl
{
  "schemaVersion": "bedrock-conversation-2024",
  "system": [
    {
      "text": "You are a digital assistant with a friendly personality"
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "text": "What is the capital of Mars?"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "text": "Mars does not have a capital. Perhaps it will one day."
        }
      ]
    }
  ]
}
```

### Format penyetelan halus kustom gambar tunggal
<a name="example1"></a>

Contoh berikut adalah untuk penyesuaian kustom atas teks dan satu gambar.

```
// train.jsonl{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
    ]
}
```

### Format penyetelan halus kustom video
<a name="example3"></a>

Contoh berikut adalah untuk penyesuaian kustom atas teks dan video.

```
{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a helpful assistant designed to answer questions crisply and to the point"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "How many white items are visible in this video?"
                },
                {
                    "video": {
                        "format": "mp4",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-video.mp4",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "There are at least eight visible items that are white"
            }]
        }
    ]
}
```

## Kendala set data
<a name="custom-fine-tune-constraints"></a>

Amazon Nova menerapkan batasan berikut pada penyesuaian model untuk Memahami model.


| Model | Sampel Minimum | Sampel Maksimum | Panjang Konteks | 
| --- |--- |--- |--- |
| Amazon Nova Mikro | 8 | 20k | 32k | 
| Amazon Nova Lite | 8 | 20k | 32k | 
| Amazon Nova Pro | 8 | 20k | 32k | 


**Kendala gambar dan video**  

|  |  | 
| --- |--- |
| Gambar maksimum | 10/sampel | 
| Ukuran file gambar maksimum | 10 MB | 
| Video maksimum | 1/sampel | 
| Panjang/durasi video maksimum | 90 detik | 
| Ukuran file video maksimum | 50 MB | 

**Format media yang didukung**
+ Gambar -`png`,`jpeg`,`gif`, `webp`
+ Video -`mov`,`mkv`,`mp4`, `webm`