

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# データセットを作成する
<a name="canvas-data-flow"></a>

SageMaker Canvas の Data Wrangler フローまたは*データフロー*を使用して、データ準備パイプラインを作成および変更します。5 GB を超えるデータセットには Data Wrangler を使用することをお勧めします。

開始するには、次の手順を使用してデータをデータフローにインポートします。

1. SageMaker Canvas を開きます。

1. 左側のナビゲーションで、**[Data Wrangler]** を選択します。

1. **[インポートして準備]** を選択します。

1. ドロップダウンメニューから、**[表形式]** または **[画像]** を選択します。

1. **[データソースの選択]** では、データソースを選択し、インポートするデータを選択します。最大 30 個のファイルまたは 1 つのフォルダを選択できます。Canvas にインポート済みのデータセットがある場合は、ソースとして **[Canvas データセット]** を選択します。それ以外の場合は、Amazon S3 や Snowflake などのデータソースに接続し、データを参照します。データソースへの接続またはデータのインポートについては、次のページを参照してください。
   + [データのインポート](canvas-importing-data.md)
   + [データソースに接続する](canvas-connecting-external.md)

1. インポートするデータを選択したら、**[次へ]** を選択します。

1. (オプション) 表形式のデータセットをインポートする際の **[インポート設定]** セクションで、**[詳細]** ドロップダウンメニューを展開します。データフローのインポートには、次の詳細設定を指定できます。
   + **サンプリング方法** – 使用するサンプリング方法とサンプルサイズを選択します。サンプルの変更方法の詳細については、「[データフローのサンプリング設定を編集する](canvas-data-flow-edit-sampling.md)」のセクションを参照してください。
   + **ファイルエンコーディング (CSV)** – データセットファイルのエンコーディングを選択します。 `UTF-8` がデフォルトです。
   + **最初の行をスキップ**する – データセットの先頭に冗長な行がある場合は、インポートをスキップする行の数を入力します。
   + **区切り記号** – データ内の各項目を区切る区切り記号を選択します。カスタム区切り記号を指定することもできます。
   + **複数行の検出** — Canvas で複数行セルのデータセット全体を手動で解析する場合は、このオプションを選択します。Canvas ではデータのサンプルを取得することで、複数行のサポートを使用するかどうかを決定しますが、サンプル内の複数行セルが検出されない場合があります。この場合は、**[複数行の検出]** オプションを選択して、データセット全体の複数行セルの確認を Canvas に強制することをお勧めします。

1. **[インポート]** を選択します。

これで、新しいデータフローが作成され、変換手順と分析の追加を開始できるようになりました。