Schema für Statistiken (Datei statistics.json) - Amazon SageMaker AI

Schema für Statistiken (Datei statistics.json)

Das in der Datei statistics.json definierte Schema gibt die statistischen Parameter an, die für die Baseline und die erfassten Daten berechnet werden sollen. Es konfiguriert auch den Bucket, der von KLL verwendet werden soll, einer sehr kompakten Quantil-Skizze mit verzögertem Komprimierungsschema.

{ "version": 0, # dataset level stats "dataset": { "item_count": number }, # feature level stats "features": [ { "name": "feature-name", "inferred_type": "Fractional" | "Integral", "numerical_statistics": { "common": { "num_present": number, "num_missing": number }, "mean": number, "sum": number, "std_dev": number, "min": number, "max": number, "distribution": { "kll": { "buckets": [ { "lower_bound": number, "upper_bound": number, "count": number } ], "sketch": { "parameters": { "c": number, "k": number }, "data": [ [ num, num, num, num ], [ num, num ][ num, num ] ] }#sketch }#KLL }#distribution }#num_stats }, { "name": "feature-name", "inferred_type": "String", "string_statistics": { "common": { "num_present": number, "num_missing": number }, "distinct_count": number, "distribution": { "categorical": { "buckets": [ { "value": "string", "count": number } ] } } }, #provision for custom stats } ] }
Hinweise
  • Die angegebenen Metriken werden von SageMaker AI bei späteren Visualisierungsänderungen erkannt. Der Container kann bei Bedarf weitere Metriken ausgeben.

  • KLL-Skizze ist die erkannte Skizze. Benutzerdefinierte Container können ihre eigene Darstellung schreiben, sie wird von SageMaker AI in Visualisierungen jedoch nicht erkannt.

  • Standardmäßig wird die Verteilung in 10 Buckets materialisiert. Sie können diesen Wert nicht ändern.