计划向第三方云存储系统或从第三方云存储系统传输数据 - AWS DataSync

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

计划向第三方云存储系统或从第三方云存储系统传输数据

在规划跨云数据传输时,请考虑以下几点:

  • 使用代理:只有在使用基本模式任务时,才需要代理才能访问其他云中的存储。增强模式任务不需要代理。如果您决定使用代理,则可以在从云提供商的兼容 S3 的对象存储中传输时将其部署为 Amazon EC2 实例,或者分别将其部署为 Google 计算引擎或 Azure 虚拟机,用于从这些特定存储服务进行传输。从 Google 和 Azure 中的文件系统传输时,我们建议将代理部署为 Google 或 Azure 虚拟机,以便代理尽可能靠近文件系统。此外,还可以将代理中的数据 DataSync 压缩到 AWS,这有助于降低出口成本。 DataSync 提供了经过验证的云位置列表,这些位置提供了所需的 Amazon S3 API 兼容性

  • 其他云的对象存储端点:第三方云提供商的存储端点通常是特定于区域或账户的。区域终端节点与指定的存储桶名称一起用作 DataSync 对象存储位置的服务器。

  • 源对象的存储类别:与 Amazon S3 一样,一些云提供商支持存档层,要求在访问存档对象之前进行还原。例如,在传输数据之前,必须检索 Azure Blob 存档层中的对象以进行标准访问。可以立即访问 Google Cloud Storage 存档层中的对象,无需恢复,但是直接访问存档层会产生检索成本。在开始数据传输之前,请查看您的跨云存储类别文档,以确定访问要求和检索费用。有关在 Amazon S3 中恢复存档对象的更多信息,请参阅《亚马逊简单存储服务用户指南》中的恢复存档对象

  • 对象存储访问权限:在第三方云提供商之间传输数据需要以身份验证密钥的形式访问其他云的对象存储。例如,要提供对 Google Cloud Storage 的访问权限,您需要配置一个 DataSync 对象存储位置,该位置连接到 Google Cloud Storage XML API,并使用基于哈希的消息身份验证码 (HMAC) 密钥为您的服务帐号进行身份验证。对于 Azure Blob 存储,你可以配置一个专用 Azure Blob DataSync 位置,该位置使用 SAS 令牌进行身份验证。 DataSync AWS Secrets Manager 用于安全存储您的对象存储凭证。有关更多信息,请参阅保护存储位置凭证

  • 对象标签支持:

    • 与 Amazon S3 不同,并非所有云提供商都支持对象标签。 DataSync 如果云提供商不支持通过 Amazon S3 API 进行对象标签,或者您提供的凭证不足以检索标签,则在尝试从源位置读取标签时,任务可能会失败。 DataSync提供了一个任务选项,用于在传输过程中关闭对象标签的读取和复制功能,如果不支持对象标签或您不想保留这些标记。请查看您的云提供商文档以确定是否支持对象标签,并在开始传输之前验证传输任务的对象标签设置。

    • 您可以使用 Amazon S3 API 来检查云提供商是否会返回get-object-tagging请求。有关更多信息,请参阅 AWS CLI 命令参考 中的 get-object-tagging

      支持对象标签的云提供商将返回类似于以下示例的响应:

      aws s3api get-object-tagging --bucket BUCKET_NAME --endpoint- url=https://BUCKET_ENDPOINT --key prefix/file1 { "TagSet": [] }

      不支持的云提供商get-object-tagging将返回以下消息:

      aws s3api get-object-tagging --bucket BUCKET_NAME --endpoint- url=https://BUCKET_ENDPOINT --key prefix/file1 An error occurred (OperationNotSupported) when calling the GetObjectTagging operation: The operation is not supported for this resource
  • 请求和数据流出的相关成本:从云对象存储传输数据会产生与读取数据和传输数据相关的请求和出站成本。不同云提供商的请求费用以及不同的存储类别(如果适用)会有所不同。请查阅您的云提供商文档,了解与您计划读取的存储类别相关的请求的具体费用。有关数据传输的请求费用的 DataSync 概述,请参阅使用时评估 S3 请求费用 DataSyncAWS DataSync 定价。将数据从特定的云提供商转移出去会产生出站费用。数据传输成本因云提供商而异,也取决于存储数据的区域。

  • 对象存储请求速率:云提供商的对象存储平台具有不同的性能和请求速率特征。查看其他云提供商的请求速率,并确定请求限制的适用范围。提前计划由多个代理组成的高度并行化的传输,在这些传输中可能需要特定的分区或性能提升。

    Amazon S3 记录了请求速率,您可以围绕这些请求速率来构建解决方案。Amazon S3 请求速率是按分区前缀计算的,并且可以跨多个前缀扩展。有关更多信息,请参阅《亚马逊简单存储服务用户指南》中的最佳实践设计模式:优化 Amazon S3 性能