

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Data deret waktu
<a name="clarify-processing-job-data-format-time-series"></a>

Data deret waktu mengacu pada data yang dapat dimuat ke dalam kerangka data tiga dimensi. Dalam bingkai, di setiap stempel waktu, setiap baris mewakili catatan target, dan setiap catatan target memiliki satu atau lebih kolom terkait. Nilai dalam setiap sel bingkai data dapat berupa tipe data numerik, kategoris, atau teks.

## Prasyarat kumpulan data deret waktu
<a name="clarify-processing-job-data-format-time-series-prereq"></a>

Sebelum melakukan analisis, selesaikan langkah-langkah pra-pemrosesan yang diperlukan untuk menyiapkan data Anda, seperti pembersihan data atau rekayasa fitur. Anda dapat menyediakan satu atau beberapa kumpulan data. Jika Anda menyediakan beberapa kumpulan data, gunakan salah satu metode berikut untuk memasoknya ke pekerjaan pemrosesan SageMaker Clarify:
+ Gunakan konfigurasi [ProcessingInput](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProcessingInput.html)bernama `dataset` atau analisis `dataset_uri` untuk menentukan kumpulan data utama. Untuk informasi selengkapnya`dataset_uri`, lihat daftar parameter di[File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).
+ Gunakan `baseline` parameter yang disediakan dalam file konfigurasi analisis. Dataset dasar diperlukan untuk`static_covariates`, jika ada. Untuk informasi selengkapnya tentang file konfigurasi analisis, termasuk contoh, lihat[File Konfigurasi Analisis](clarify-processing-job-configure-analysis.md).

Tabel berikut mencantumkan format data yang didukung, ekstensi file, dan tipe MIME.


| Format data | Ekstensi file | Tipe MIME | 
| --- | --- | --- | 
|  `item_records`  |  json  |  `application/json`  | 
|  `timestamp_records`  |  json  |  `application/json`  | 
|  `columns`  |  json  |  `application/json`  | 

JSON adalah format fleksibel yang dapat mewakili tingkat kompleksitas apa pun dalam data terstruktur Anda. Seperti yang ditunjukkan pada tabel, SageMaker Clarify mendukung format`item_records`,`timestamp_records`, dan`columns`.

## Contoh konfigurasi kumpulan data deret waktu
<a name="clarify-processing-job-data-format-time-series-ex"></a>

Bagian ini menunjukkan cara mengatur konfigurasi analisis menggunakan data deret `time_series_data_config` waktu dalam format JSON. Misalkan Anda memiliki kumpulan data dengan dua item, masing-masing dengan stempel waktu (t), deret waktu target (x), dua deret waktu terkait (r) dan dua kovariat statis (u) sebagai berikut:

 t 1 = [0,1,2], t 2 = [2,3]

x 1 = [5,6,4], x 2 = [0,4]

r 1  = [0,1,0], r 2 1 = [1,1]

r 1 2 = [0,0,0], r 2 2 = [1,0]

u 1 1 = -1, u 2 1 = 0

u 1 2 = 1, u 2 2 = 2

Anda dapat menyandikan kumpulan data menggunakan tiga `time_series_data_config` cara berbeda, tergantung pada. `dataset_format` Bagian berikut menjelaskan setiap metode.

### Konfigurasi data deret waktu kapan `dataset_format` `columns`
<a name="clarify-processing-job-data-format-time-series-columns"></a>

Contoh berikut menggunakan `columns` nilai untuk`dataset_format`. File JSON berikut mewakili dataset sebelumnya.

```
{
    "ids": [1, 1, 1, 2, 2],
    "timestamps": [0, 1, 2, 2, 3], # t
    "target_ts": [5, 6, 4, 0, 4], # x
    "rts1": [0, 1, 0, 1, 1], # r1
    "rts2": [0, 0, 0, 1, 0], # r2
    "scv1": [-1, -1, -1, 0, 0], # u1
    "scv2": [1, 1, 1, 2, 2], # u2
}
```

Perhatikan bahwa id item diulang di `ids` lapangan. Implementasi yang `time_series_data_config` benar ditunjukkan sebagai berikut:

```
"time_series_data_config": {
    "item_id": "ids",
    "timestamp": "timestamps",
    "target_time_series": "target_ts",
    "related_time_series": ["rts1", "rts2"],
    "static_covariates": ["scv1", "scv2"],
    "dataset_format": "columns"
}
```

### Konfigurasi data deret waktu kapan `dataset_format` `item_records`
<a name="clarify-processing-job-data-format-time-series-itemrec"></a>

Contoh berikut menggunakan `item_records` nilai untuk`dataset_format`. File JSON berikut mewakili dataset.

```
[
    {
        "id": 1,
        "scv1": -1,
        "scv2": 1,
        "timeseries": [
            {"timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0},
            {"timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0},
            {"timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0}
        ]
    },
    {
        "id": 2,
        "scv1": 0,
        "scv2": 2,
        "timeseries": [
            {"timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1},
            {"timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0}
        ]
    }
]
```

Setiap item direpresentasikan sebagai entri terpisah di JSON. Cuplikan berikut menunjukkan yang sesuai `time_series_data_config` (yang menggunakan JMESPath). 

```
"time_series_data_config": {
    "item_id": "[*].id",
    "timestamp": "[*].timeseries[].timestamp",
    "target_time_series": "[*].timeseries[].target_ts",
    "related_time_series": ["[*].timeseries[].rts1", "[*].timeseries[].rts2"],
    "static_covariates": ["[*].scv1", "[*].scv2"],
    "dataset_format": "item_records"
}
```

### Konfigurasi data deret waktu kapan `dataset_format` `timestamp_record`
<a name="clarify-processing-job-data-format-time-series-tsrec"></a>

Contoh berikut menggunakan `timestamp_record` nilai untuk`dataset_format`. File JSON berikut mewakili dataset sebelumnya.

```
[
    {"id": 1, "timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1},
    {"id": 1, "timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0, "svc1": -1, "svc2": 1},
    {"id": 1, "timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1},
    {"id": 2, "timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1, "svc1": 0, "svc2": 2},
    {"id": 2, "timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0, "svc1": 0, "svc2": 2},
]
```

Setiap entri JSON mewakili satu stempel waktu dan sesuai dengan satu item. `time_series_data_config`Implementasinya ditunjukkan sebagai berikut: 

```
{
    "item_id": "[*].id",
    "timestamp": "[*].timestamp",
    "target_time_series": "[*].target_ts",
    "related_time_series": ["[*].rts1"],
    "static_covariates": ["[*].scv1"],
    "dataset_format": "timestamp_records"
}
```