计划传入或传出第三方云存储系统 - AWS DataSync

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

计划传入或传出第三方云存储系统

在计划跨云数据传输时,请考虑以下几点:

  • 使用代理:只有在使用基本模式任务时,才需要代理来访问其他云中的存储。增强模式任务无需代理。如果决定使用代理,在从云提供商的 S3 兼容对象存储中进行传输时可以将代理部署为 Amazon EC2 实例,或分别作为 Google 计算引擎或 Azure 虚拟机,用于从这些特定的存储服务进行传输。从 Google 和 Azure 中的文件系统进行传输时,建议将代理部署为 Google 或 Azure 虚拟机,以使代理尽可能靠近文件系统。此外,DataSync 会压缩从代理到 AWS 的数据,这有助于降低出口费用。DataSync 提供了经验证的云位置列表,这些位置提供了所需的 Amazon S3 API 兼容性

  • 其他云的对象存储端点:第三方云提供商的存储端点通常是特定区域或账户专属的。区域端点用作 DataSync 对象存储位置的服务器,与指定的存储桶名称配合使用。

  • 源对象的存储类别:与 Amazon S3 一样,一些云提供商支持使用存档层,要求先进行还原操作才能访问存档对象。例如,必须检索 Azure Blob 存档层中的对象以进行标准访问,然后才能进行数据传输。Google Cloud Storage 存档层中的对象可立即访问且无需恢复,但是直接访问存档层会产生检索费用。在开始数据传输之前,请查阅跨云存储类别文档,确定访问要求和检索费用。有关在 Amazon S3 中还原已归档对象的更多信息,请参阅《Amazon Simple Storage Service 用户指南》中的恢复已归档的对象

  • 对象存储访问权限:在第三方云提供商之间传输数据需要通过身份验证密钥的形式,访问其他云的对象存储。例如,要提供对 Google Cloud Storage 的访问权限,需要配置一个 DataSync 对象存储位置,该位置连接到 Google Cloud Storage XML API,并使用服务账户的 HMAC 散列消息认证码密钥进行身份验证。对于 Azure Blob 存储,可配置专用的 Azure Blob DataSync 位置,使用 SAS 令牌进行身份验证。DataSync 使用 AWS Secrets Manager 安全存储对象存储凭证。有关更多信息,请参阅保护存储位置凭证

  • 对象标签支持:

    • 与 Amazon S3 不同,并非所有云提供商都支持对象标签。如果云提供商不支持通过 Amazon S3 API 读取对象标签,或提供的凭证不足以检索标签,DataSync 任务可能会在尝试从源位置读取标签时失败。DataSync 提供了一个任务选项,如果不支持对象标签,或者不想保留标签,该选项支持在传输过程中关闭对象标签的读取和复制。请查阅云提供商文档确定是否支持对象标签,并在验证传输任务的对象标签设置后再启动传输。

    • 可使用 Amazon S3 API 来检查云提供商是否会返回 get-object-tagging 请求。有关更多信息,请参阅《AWS CLI Command Reference》中的 get-object-tagging

      支持对象标签的云提供商将返回类似以下示例的响应:

      aws s3api get-object-tagging --bucket BUCKET_NAME --endpoint- url=https://BUCKET_ENDPOINT --key prefix/file1 { "TagSet": [] }

      不支持 get-object-tagging 的云提供商将返回以下消息:

      aws s3api get-object-tagging --bucket BUCKET_NAME --endpoint- url=https://BUCKET_ENDPOINT --key prefix/file1 An error occurred (OperationNotSupported) when calling the GetObjectTagging operation: The operation is not supported for this resource
  • 请求和数据传出的相关费用:从云对象存储传输数据会产生与数据读取和传出相关的请求和传出费用。不同云提供商以及不同存储类别(如果适用)的请求费用会有所不同。请查阅云提供商文档,了解与计划读取的存储类别相关的请求的具体费用。有关 DataSync 针对数据传输收取的请求费用的概述,请参阅评估使用 DataSync 时的 S3 申请费用AWS DataSync 定价。从特定的云提供商传出数据会产生传出费用。数据传输成本因云提供商而异,此外也取决于存储数据的区域。

  • 对象存储请求速率:云提供商对象存储平台的性能和请求速率特征各不相同。请查看其他云提供商的请求速率,确定请求限制的适用范围。对于由多个代理组成的高度并行化传输,需要提前规划,以满足特定的分区需求或性能提升要求。

    Amazon S3 记录了请求速率,您可以据此构建解决方案。Amazon S3 的请求速率按分区前缀计算,并且可以跨多个前缀扩展。有关更多信息,请参阅《Amazon Simple Storage Service 用户指南》中的最佳实践设计模式:优化 Amazon S3 性能