

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 导出数据
<a name="canvas-export-data"></a>

导出数据，将数据流中的转换应用于完整的导入数据集。您可以将数据流中的任何节点导出到以下位置：
+ SageMaker 画布数据集
+ Amazon S3

如果您想在 Canvas 中训练模型，可以将转换后的完整数据集导出为 Canvas 数据集。如果您想在 C SageMaker anvas 外部的机器学习工作流程中使用转换后的数据，可以将数据集导出到 Amazon S3。

## 导出到 Canvas 数据集
<a name="canvas-export-data-canvas"></a>

使用以下步骤从数据流中的节点导出 SageMaker Canvas 数据集。

**将流程中的节点导出为 SageMaker Canvas 数据集**

1. 导航至数据流。

1. 选择要导出的节点旁边的省略号图标。

1. 在上下文菜单中，将鼠标悬停在**导出**上，然后选择**将数据导出到 Canvas 数据集**。

1. 在**导出到 Canvas 数据集**侧面板中，输入新数据集的**数据集名称**。

1. 如果您希望 C SageMaker anvas **处理并保存您的完整数据集，请选中 “处理整个**数据集” 选项。关闭此选项，只将转换应用于数据流中正在处理的样本数据。

1. 选择**导出**。

现在，您应该可以进入 Canvas 应用程序的**数据集**页面，查看新数据集。

## 导出到 Amazon S3
<a name="canvas-export-data-s3"></a>

将数据导出到 Amazon S3 时，您可以扩展以转换和处理任何规模的数据。如果应用程序的内存能够处理数据集的大小，Canvas 会自动在本地处理数据。如果您的数据集大小超过 5 GB 的本地内存容量，Canvas 会以您的名义启动一个远程作业，为您提供额外的计算资源并更快地处理数据。默认情况下，Canvas 使用 Amazon EMR Serverless 来运行这些远程作业。但是，您可以手动将 Canvas 配置为使用 EMR Serverless 或使用自己的设置的 Proces SageMaker sing 作业。

**注意**  
运行 EMR Serverless 作业时，默认情况下作业会继承 Canvas 应用程序的 IAM 角色、KMS 密钥设置和标签。

下面总结了 Canvas 中的远程作业选项：
+ **EMR Serverless**：这是 Canvas 用于远程作业的默认选项。EMR Serverless 可自动调配和扩展计算资源来处理数据，因此您无需担心为工作负载选择合适的计算资源。有关 EMR Serverless 的更多信息，请参阅[《EMR Serverless 用户指南》](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/emr-serverless.html)。
+ **SageMaker 处理**： SageMaker 处理作业提供更高级的选项，并可对用于处理数据的计算资源进行精细控制。例如，您可以指定计算实例的类型和数量，在自己的 VPC 中配置作业并控制网络访问，自动处理作业等。有关处理作业的更多信息，请参阅 [创建自动处理新数据的计划](canvas-data-export-schedule-job.md)。有关 SageMaker 处理作业的更多一般信息，请参阅[带 SageMaker 处理功能的数据转换工作负载](processing-job.md)。

导出到 Amazon S3 时支持以下文件类型：
+ CSV
+ Parquet

要开始使用，请查看以下先决条件。

### EMR Serverless 作业的先决条件
<a name="canvas-export-data-emr-prereqs"></a>

要创建使用 EMR Serverless 资源的远程作业，您必须拥有必要的权限。您可以通过 Amazon A SageMaker I 域或用户个人资料设置授予权限，也可以手动配置用户的 AWS IAM 角色。有关如何授予用户执行大型数据处理的权限的说明，请参阅 [向用户授予在整个 ML 生命周期中使用大数据的权限](canvas-large-data-permissions.md)。

如果您不想配置这些策略，但仍需要通过 Data Wrangler 处理大型数据集，也可以使用 SageMaker 处理作业。

按照以下步骤将数据导出到 Amazon S3。要配置远程作业，请按照可选的高级步骤操作。

**将流中的节点导出到 Amazon S3**

1. 导航至数据流。

1. 选择要导出的节点旁边的省略号图标。

1. 在上下文菜单中，将鼠标悬停在**导出**上，然后选择**将数据导出到 Amazon S3**。

1. 在**导出到 Amazon S3** 侧面板中，您可以更改新数据集的**数据集名称**。

1. 对于 **S3 位置**，输入要将数据集导出到的 Amazon S3 位置。您可以输入 S3 位置或 S3 接入点的 S3 URI、别名或 ARN。有关更多信息接入点，请参阅 *Amazon S3 用户指南*中的[使用 Amazon S3 接入点管理数据访问](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html)。

1. （可选）对于**高级设置**，为以下字段指定值：

   1. **文件类型**：导出数据的文件格式。

   1. **分隔符**：用于分隔文件中值的分隔符。

   1. **压缩**：用于减小文件大小的压缩方法。

   1. **分区数**：Canvas 作为作业输出写入的数据集文件的数量。

   1. **选择列**：您可以从数据中选择要包含在分区中的列子集。

1. 如果您希望 Canvas 对整个数据集应用数据流转换并导出结果，请选中**处理整个数据集**选项。如果您取消选择此选项，Canvas 将只对交互式 Data Wrangler 数据流中使用的数据集样本应用转换。
**注意**  
如果您只导出数据样本，Canvas 会在应用程序中处理您的数据，而不会为您创建远程作业。

1. 如果您希望 Canvas 自动确定是使用 Canvas 应用程序内存还是 EMR Serverless 作业来运行作业，请选中**自动作业配置**选项。如果您取消选择此选项并手动配置作业，则可以选择使用 EMR Serverless 或 SageMaker 处理作业。有关如何配置 EMR Serverless 或 SageMaker 处理作业的说明，请在导出数据之前参阅此过程之后的部分。

1. 选择**导出**。

以下过程说明在将完整数据集导出到 Amazon S3 时，如何手动配置 EMR Serverless 或 P SageMaker rocessing 的远程任务设置。

------
#### [ EMR Serverless ]

要在导出到 Amazon S3 时配置 EMR Serverless 作业，请执行以下操作：

1. 在导出到 Amazon S3 侧面板中，关闭**自动作业配置**选项。

1. 选择 **EMR Serverless**。

1. 在**作业名称**中，输入 EMR Serverless 作业的名称。名称可以包含字母、数字、连字符和下划线。

1. 在 **IAM 角色**中，输入用户的 IAM 执行角色。此角色应拥有运行 EMR Serverless 应用程序所需的权限。有关更多信息，请参阅 [向用户授予在整个 ML 生命周期中使用大数据的权限](canvas-large-data-permissions.md)。

1. （可选）对于 **KMS 密钥**，请指定用于加密任务日志的 AWS KMS key 密钥 ID 或 ARN。如果不输入密钥，Canvas 会使用 EMR Serverless 的默认密钥。

1. （可选）在**监控配置**中，输入要向其发布 CloudWatch 日志的 Amazon Logs 日志组的名称。

1. （可选）对于**标签**，为 EMR Serverless 作业添加由键值对组成的元数据标签。这些标签可用于对作业进行分类和搜索。

1. 选择**导出**以启动任务。

------
#### [ SageMaker Processing ]

要在导出到 Amazon S3 的同时配置 SageMaker 处理任务，请执行以下操作：

1. 在**导出到 Amazon S3** 侧面板中，关闭**自动作业配置**选项。

1. 选择 “**SageMaker 处理**”。

1. 在 “**任务名称**” 中，输入 A SageMaker I 处理任务的名称。

1. 对于**实例类型**，选择要运行处理作业的计算实例的类型。

1. 对于**实例数**，指定要启动的计算实例数量。

1. 在 **IAM 角色**中，输入用户的 IAM 执行角色。此角色应具有 SageMaker AI 代表您创建和运行处理任务所需的权限。如果您将[AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html)策略附加到您的 IAM 角色，则会授予这些权限。

1. 对于**卷大小**，输入连接到每个处理实例的 ML 存储卷的存储大小（以 GB 为单位）。根据预期的输入和输出数据大小选择大小。

1. （可选）对于**卷 KMS 密钥**，指定用于加密存储卷的 KMS 密钥。如果未指定密钥，则会使用默认的 Amazon EBS 加密密钥。

1. （可选）对于 **KMS 密钥**，指定 KMS 密钥以加密处理作业使用的输入和输出 Amazon S3 数据来源。

1. （可选）要**配置 Spark 内存**，请执行以下操作：

   1. 输入处理作业协调和调度的 Spark 驱动程序节点的**驱动程序内存（以 MB 为单位）**。

   1. 为在作业中运行单个任务的 Spark 执行器节点输入**执行器内存（以 MB 为单位）**。

1. （可选）对于**网络配置**，请执行以下操作：

   1. 对于**子网配置**，请输入要在 IDs 其中启动处理实例的 VPC 子网。默认情况下，此作业使用默认 VPC 的设置。

   1. 对于**安全组配置**，请输入用于控制入站和出站连接规则的安全组。 IDs 

   1. 打开**启用容器间流量加密**选项，以在作业期间加密处理容器之间的网络通信。

1. （可选）对于**员工计划**，您可以选择创建 Amazon EventBridge 计划，使处理任务按周期性间隔运行。选择**创建新计划**，然后填写对话框。有关填写本节和按计划运行处理作业的更多信息，请参阅 [创建自动处理新数据的计划](canvas-data-export-schedule-job.md)。

1. （可选）将**标签**添加为键值对，以便您可以对处理作业进行分类和搜索。

1. 选择**导出**以启动处理任务。

------

导出数据后，您应该能在指定的 Amazon S3 位置查找经过全面处理的数据集。