本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
收集迁移要求
在大规模数据迁移的第一步中,需要在整个组织中收集各种信息。
这些信息有助于建立迁移过程,对于大规模迁移,这一过程可能包括从源存储到目标存储的多次传输和割接操作(多波完成)步骤。
了解迁移的原因
在开始向 AWS 迁移之前,需要清楚地了解迁移数据的原因。这有助于应对常见的迁移挑战,例如满足截止日期要求、管理资源以及跨团队协调。
如果需要帮助确定迁移的动机,请回答以下问题:
-
您是否正在释放本地存储空间?
-
您的硬件是否在硬件支持合同的期限内?
-
这是为了退出数据中心吗?
-
迁移时间表如何?
-
是否要从其他云存储传输数据?
-
是迁移部分数据集还是完整数据集?
-
这是为了归档数据吗?
-
应用程序或用户是否需要定期访问这些数据?
解决后勤问题
解决有关存储环境、迁移与组织的一些基本后勤问题:
-
粗略了解当前的数据存储基础架构。
-
验证是否需要 DataSync 代理。例如,如果从本地存储进行传输,则需要代理。
-
如果需要代理,请确保了解代理要求:
-
代理可以作为 VMware ESXi、Linux 基于内核的虚拟机(KVM)和 Microsoft Hyper-V 虚拟机监控程序上的虚拟机(VM)运行。您还可以在 AWS 中将代理部署为 Amazon EC2 实例。
-
大规模迁移通常占用大量内存。确保代理具有足够的 RAM。
-
-
确定领导层、网络、存储和 IT 部门中需要参与迁移的主要利益相关人。这可能包括:
-
寻找一位专注于项目及其结果的专职领导者。
-
确定迁移数据所有权和分类的负责人。
-
确定管理数据来源,最后负责管理 AWS 迁移目标存储服务的人。
-
确定数据进入 AWS 后负责创建和管理其他任何数据流程的人。
-
-
建立跨部门沟通渠道。
-
制定突发事件回滚计划。
-
记录完整的迁移过程,包括多波完成、验证和割接步骤。将其作为整个迁移的运行手册。在规划和实施迁移时需要更新此流程。
查看要迁移的数据
与存储和应用程序团队合作,分析要迁移的数据特征。此信息有助于确定可使用 DataSync 执行的迁移策略。
确定数据使用模式
-
对于经常修改的常用数据,可规划多波增量传输,以避免业务运营中断。
-
对于可能视为存档的只读数据,可能无需规划多波完成。
-
如果有多种数据使用模式,需规划独立完成这些不同数据集的迁移波次。例如,存档数据可能是一个波次,其余波次专门用于迁移活动数据。
识别数据结构和布局
-
确定数据是按时间段(年、月、日)还是其他模式组织的。
-
使用此组织结构规划迁移波次。例如,您可能在一个波次中迁移一整年的存档数据。
记录共享和文件夹
-
创建共享和文件夹清单(包括列明每个共享和文件夹的文件或对象数量)。
-
使用活动数据集识别共享和文件夹。这些共享和文件夹在迁移期间可能需要增量传输。
-
查看 DataSync 配额。这有助于在配置 DataSync 时规划如何对数据集进行分区。
分析文件大小
-
大文件(MB 或 GB)的传输数据吞吐量预计会比小文件(KB)更高。
-
如果处理的是大量小文件,预计会在存储系统上进行更多元数据操作,数据吞吐量较低。DataSync 会在比较和验证源位置和目标位置时执行这些操作。
确定存储要求
要选择兼容的 AWS 存储服务来迁移数据,需要评估源存储系统的特征和性能。
这些信息还可以帮助安排传输时间,以最大限度地降低迁移期间对业务运营的影响。
确定源存储支持
DataSync 可以与允许通过 NFS、SMB、HDFS 和 S3 兼容对象存储客户端进行访问的多种存储系统配合使用。
如果要从其他云存储迁移,请验证 DataSync 是否可以与该服务提供商兼容。有关受支持的源位置的列表,请参阅我可以在哪里通过 AWS DataSync传输数据?。
查看元数据保留要求
DataSync 可以在传输期间保留您的文件或对象元数据。如何保留元数据取决于您的传输位置以及这些位置是否使用类似类型的元数据。
在某些情况下,DataSync 需要额外的权限才能保留文件元数据,例如 NTFS 自由访问列表(DACL)。
有关更多信息,请参阅 了解如何 DataSync 处理文件和对象元数据。
从源存储收集性能指标
测量源存储在平均和峰值工作负载期间的基准 IOPS 与磁盘吞吐量。传输数据会增加源和目标存储系统的 I/O 开销。
将此性能数据与存储系统的规格参数进行比较,确定可用的性能资源。
选择目标 AWS 存储服务
此时,您可能已经知道哪种 AWS 存储服务适用于自己的数据。如果不知道,数据使用模式和存储性能是决策时需要考虑的两个方面。例如,如果有存档数据,可考虑使用 Amazon S3,活动数据则可考虑使用 Amazon FSx 或 Amazon EFS。
为了帮助您为数据选择合适的对象存储或文件存储,请参阅选择 AWS 存储服务。
确定网络要求
要使用 DataSync 迁移数据,必须在源存储、代理和 AWS 之间建立网络连接。此外还需要规划足够的网络带宽和基础设施。
与网络工程师和存储管理员合作,收集以下网络需求。
评估可用网络带宽
可用网络带宽会影响传输速度和总迁移时间。如果要从本地存储系统进行传输,请执行以下操作:
-
与网络团队合作确定平均和峰值带宽利用率。
-
确定何时可以传输数据,避免日常运营中断。这可以提供迁移波次和割接何时发生的信息。
可控制 DataSync 使用的带宽量。有关更多信息,请参阅 为 AWS DataSync 任务设置带宽限制。
由于来自其他云存储的传输通常发生在公共互联网上,因此这种传输的带宽限制和注意事项通常较少。
考虑将网络连接至 AWS 的选项
可考虑使用以下方法,建立 DataSync 传输的网络连接:
-
Direct Connect:查看 Direct Connect 与 DataSync 结合使用的架构和路由示例。您可以使用 Amazon CloudWatch 监控 Direct Connect 活动。
-
VPN:AWS Site-to-Site VPN 提供每条隧道高达 1.25 Gbps 的吞吐量。
-
公共互联网:请联系互联网服务提供商获取网络使用量数据。
选择代理通信的服务端点
DataSync 使用服务端点与 DataSync 服务通信。所用端点类型取决于网络与 AWS 连接的方式。
规划足够的网络基础设施
对于您创建的每项传输任务,DataSync 都会自动生成和管理用于数据传输的网络基础设施。这种基础设施称为网络接口或弹性网络接口,它们是 Amazon 虚拟私有云(VPC)中代表虚拟网卡的逻辑网络组件。有关更多信息,请参阅《Amazon EC2 用户指南》。
每个网络接口在目标 VPC 子网中使用一个 IP 地址。要确保有足够的网络基础设施进行迁移,请执行以下操作:
-
记下 DataSync 将为您的 DataSync 目标位置创建的网络接口的 数量。
-
请确保您的子网具有足够的 IP 地址来执行 DataSync 任务。例如,使用代理的任务需要四个 IP 地址。如果为迁移创建了四个任务,则意味着子网中需要 16 个可用的 IP 地址。