AWS::SageMaker::ProcessingJob DatasetDefinition

Configuration for Dataset Definition inputs. The Dataset Definition input must specify exactly one of either AthenaDatasetDefinition or RedshiftDatasetDefinition types.

Syntax

To declare this entity in your CloudFormation template, use the following syntax:

JSON


{
  "AthenaDatasetDefinition" : AthenaDatasetDefinition,
  "DataDistributionType" : String,
  "InputMode" : String,
  "LocalPath" : String,
  "RedshiftDatasetDefinition" : RedshiftDatasetDefinition
}

YAML


  AthenaDatasetDefinition: 
    AthenaDatasetDefinition
  DataDistributionType: String
  InputMode: String
  LocalPath: String
  RedshiftDatasetDefinition: 
    RedshiftDatasetDefinition

Properties

AthenaDatasetDefinition

Configuration for Athena Dataset Definition input.

Required: No

Type: AthenaDatasetDefinition

Update requires: Replacement

DataDistributionType

Whether the generated dataset is FullyReplicated or ShardedByS3Key (default).

Required: No

Type: String

Allowed values: FullyReplicated | ShardedByS3Key

Update requires: Replacement

InputMode

Whether to use File or Pipe input mode. In File (default) mode, Amazon SageMaker copies the data from the input source onto the local Amazon Elastic Block Store (Amazon EBS) volumes before starting your training algorithm. This is the most commonly used input mode. In Pipe mode, Amazon SageMaker streams input data from the source directly to your algorithm without using the EBS volume.

Required: No

Type: String

Allowed values: File | Pipe

Update requires: Replacement

LocalPath

The local path where you want Amazon SageMaker to download the Dataset Definition inputs to run a processing job. LocalPath is an absolute path to the input data. This is a required parameter when AppManaged is False (default).

Required: No

Type: String

Pattern: .*

Minimum: 0

Maximum: 256

Update requires: Replacement

RedshiftDatasetDefinition