IOPS 卷队列长度和延迟 I/O 大小和卷吞吐量限制使用 CloudWatch 监控 I/O 特性监控实时 I/O 性能统计数据相关资源

Amazon EBS I/O 特性和监控

在给定卷配置中，某些 I/O 特性会对 EBS 卷的性能表现造成影响。

支持 SSD 的卷、通用型 SSD（gp2 和 gp3）和预调配 IOPS SSD（io1 和 io2）提供一致的性能，无论 I/O 操作是随机的还是顺序的。
支持 HDD 的卷、吞吐量优化型 HDD (st1) 和冷 HDD (sc1) 仅当 I/O 操作是大型顺序操作时才提供最佳性能。

要了解 SSD 和 HDD 卷在您的应用程序中性能如何，务必要知道卷上的需求之间的联系、卷能支持的 IOPS 数量、完成 I/O 操作所需的时间，以及卷的吞吐量限制。

IOPS

IOPS 是表示每秒输入/输出操作数的度量单位。这些操作以 KiB 为单位，而底层驱动程序技术决定了卷类型将作为单个 I/O 计数的最大数据量。由于 SSD 卷处理小型或随机 I/O 比 HDD 卷更有效，因此 SSD 卷的 I/O 大小上限为 256 KiB，而 HDD 卷的 I/O 大小上限为 1,024 KiB。

当小型 I/O 操作在物理上连续进行时，Amazon EBS 会尝试将这些操作合并为单个 I/O 操作，直至最大 I/O 大小。同样，当 I/O 操作大于最大 I/O 大小时，Amazon EBS 会尝试将这些操作分为较小的 I/O 操作。下表显示了一些示例。

卷类型	最大 I/O 大小	来自应用程序的 I/O 操作	IOPS 数量	备注
SSD	256 KiB	1 个 1024 KiB I/O 操作	4（1024÷256=4）	Amazon EBS 将 1,024 个 KiB I/O 操作拆分为四个较小的 256 KiB 操作。
		8 个连续 32KiB I/O 操作	1（8x32=256）	Amazon EBS 将 8 个连续 32 KiB I/O 操作合并为一个 256 KiB 操作。
		8 个随机 32 KiB I/O 操作	8	Amazon EBS 分别计算随机 I/O 操作。
HDD	1,024 KiB	1 个 1024 KiB I/O 操作	1	I/O 操作已经等于最大 I/O 大小。它不会被合并或拆分。
		8 个连续 128KiB I/O 操作	1（8x128=1024）	Amazon EBS 将 8 个连续 128 KiB I/O 操作合并为一个 1,024 KiB I/O 操作。
		8 个随机 32 KiB I/O 操作	8	Amazon EBS 分别计算随机 I/O 操作。

因此，当您创建一个支持 3,000 IOPS 的 SSD 卷（通过预置具有 3,000 IOPS 的 io1 或 io2 卷、将 gp2 卷大小调整为 1,000 GiB，或者使用 gp3 卷）并将其附加到可以提供足够带宽的 EBS 优化实例时，您可以每秒传输最高 3000 次数据 I/O，其吞吐量由 I/O 大小决定。

卷队列长度和延迟

卷队列长度是指等待设备处理的 I/O 请求的数量。延迟为 I/O 操作的实际端到端客户端时间，也就是说，从将 I/O 发送到 EBS 到接收来自 EBS 的确认以表示 I/O 读取或写入完成所经过的时间。队列长度必须进行适当调整，以便与 I/O 大小和延迟匹配，避免在访客操作系统上或在到 EBS 的网络链路上产生瓶颈。

每个工作负载的最佳队列长度不同，具体取决于您的特定应用程序对于 IOPS 和延迟的敏感程度。如果您的工作负载未提供足够的 I/O 请求来充分利用 EBS 卷的可用性能，则卷可能无法提供您预置 IOPS 或吞吐量。

事务密集型应用程序对 I/O 延迟增加很敏感，很适合支持 SSD 的卷。您可以通过使卷保持较小的队列长度和较高的 IOPS 数量，来维持高 IOPS 和低延迟。持续迫使一个卷的 IOPS 高于它能够支持的 IOPS 可能增加 I/O 延迟。为了达到最大一致性，对于 1 分钟 1,000 个预调配 IOPS，卷必须保持平均队列深度（四舍五入到最接近的整数）1。例如，对于预置了 3,000 IOPS 的卷，队列深度平均值必须为 3。

吞吐量密集型应用程序对 I/O 延迟增加较不敏感，很适合使用 HDD 支持的卷。您可以在执行大型顺序 I/O 时维持大队列长度，从而对 HDD 卷保持高吞吐量。

I/O 大小和卷吞吐量限制

对于 SSD 卷，如果 I/O 大小非常大，由于达到卷的吞吐量限制，您的 IOPS 数可能会少于预配置数量。例如，对于具有可用突增积分的 1000GiB 以下的 gp2 卷，IOPS 限制为 3000，卷吞吐量限制为 250 MiB/s。如果您正在使用 256KiB 的 I/O 大小，则您的卷在 IOPS 为 1000 时将达到其吞吐量限制（1000 x 256KiB = 250MiB）。当 I/O 大小较小（如 16 KiB）时，这个卷可以支持 3000 IOPS，这是因为吞吐量远低于 250 MiB/s。（这些示例都假设卷的 I/O 不会达到实例的吞吐量限制。）有关每种 EBS 卷类型吞吐量限制的更多信息，请参阅 Amazon EBS 卷类型。

对于较小的 I/O 操作，从实例内部进行度量时，您可能会看到 IOPS 值高于预配置值。当实例操作系统在将小型 I/O 操作传递到 Amazon EBS 之前将其合并为一个较大的操作时，会发生这种情况。

如果您的工作负载在 HDD 支持的 st1 和 sc1 卷上使用顺序 I/O，则从实例内部进行度量时，您的 IOPS 值可能会高于预期数量。当实例操作系统将顺序 I/O 进行合并，并以 1024 KiB 大小为单位来对其进行计数时，会发生这种情况。如果您的工作负载使用小型随机 I/O，则吞吐量可能会低于您的预期。这是因为我们会将每个随机的非顺序 I/O 计入总的 IOPS 计数，这可能导致您比预期更快达到卷的 IOPS 限制。

无论您采用何种 EBS 卷类型，如果您的 IOPS 或吞吐量与您在配置中的预期不同，请确保 EC2 实例带宽并不是导致这种结果的限制因素。您应始终使用最新一代的 EBS 优化实例（或包含 10Gb/s 网络连接的实例）以实现最佳性能。未达到预期 IOPS 的另一个可能原因是未对 EBS 卷执行足够多的 I/O 操作。

使用 CloudWatch 监控 I/O 特性

您可以通过每个卷的 CloudWatch 卷指标监控这些 I/O 特性。

监控停滞的 I/O

VolumeStalledIOCheck 监控 EBS 卷的状态以确定您的卷何时受损。该指标是一个二进制值，将根据 EBS 卷能否完成 I/O 操作返回 0（通过）或1（失败）状态。

如果 VolumeStalledIOCheck 指标失败，您可以等待 AWS 解决问题，也可以自行采取措施，例如替换受影响的卷或停止并重启卷所附加到的实例。在大多数情况下，当该指标失败时，EBS 将在几分钟内自动诊断并恢复您的卷。您可以使用 AWS Fault Injection Service 中的暂停 I/O 操作以运行受控实验，以测试架构并基于此指标进行监控，从而提高应对存储故障的恢复能力。

监控卷的 I/O 延迟

您可以使用 VolumeAvgReadLatency 和 VolumeAvgWriteLatency 指标分别监控 Amazon EBS 卷的读取和写入操作的平均延迟。您可以使用 AWS Fault Injection Service 中的延迟注入操作运行受控实验，以测试架构并基于此指标进行监控，从而提高应对存储性能下降的恢复能力。

如果您的 I/O 延迟高于所需，请确保您的应用程序没有尝试驱动超过您为卷预置的 IOPS 或吞吐量。您可以使用 VolumeAvgIOPS 和 VolumeAvgThroughput 指标来监控一分钟内驱动到卷的平均 IOPS 和吞吐量，然后将其与卷的预调配 IOPS 和吞吐量进行比较。如果卷在该分钟内没有驱动任何操作，则指标将报告值零 (0)。如果高 IOPS 或吞吐量的爆发持续时间短于分钟间隔，则卷会遭遇微爆，但平均 IOPS 和吞吐量指标可能会报告，您的性能低于卷的预调配 IOPS 或吞吐量限制。要确定您的卷在给定的分钟内是否出现性能突，您可以使用 VolumeIOPSExceededCheck 和 VolumeThroughputExceededCheck 指标。您可以监控这些指标，以确定在给定的分钟内，您的工作负载持续尝试驱动高于卷的预置性能的 IOPS 或吞吐量。如果在该分钟的任意一秒驱动的 IOPS 持续超过卷的预调配 IOPS 性能，则返回 VolumeIOPSExceededCheck 指标。1如果在该分钟的任意一秒驱动的吞吐量持续超过卷的预调配吞吐量性能，则返回 VolumeThroughputExceededCheck 指标。1如果驱动的 IOPS 和吞吐量在卷的预调配性能范围内，则返回 0 指标。

如果您的应用程序需要的 IOPS 数量超出您的卷所能提供的数量，则应考虑使用以下选项之一：

gp3、io2 或 io1 卷，预置了足够 IOPS 以实现所需延迟
更大的 gp2 卷，提供足够的基准 IOPS 性能

HDD 支持的 st1 和 sc1 卷经过特别设计，旨在对使用 1024 KiB 最大 I/O 大小的工作负载提供最佳性能。要确定卷的平均 I/O 大小，请将 VolumeWriteBytes 除以 VolumeWriteOps。同样的计算也适用于读取操作。如果平均 I/O 大小低于 64 KiB，则提高发送到 st1 或 sc1 卷的 I/O 操作的大小应该能够提高性能。

监控 `gp2`、`st1` 和 `sc1` 卷的突发存储桶余额

BurstBalance 以剩余余额百分比的形式显示 gp2、st1 和 sc1 卷的突增存储桶余额。当您的突增存储桶耗尽时，卷 I/O（对于 gp2 卷）或卷吞吐量（对于 st1 和 sc1 卷）会限定在基准水平。检查 BurstBalance 值以确定卷是否因为此原因而受限制。有关可用 Amazon EBS 指标的完整列表，请参阅Amazon EBS 的 Amazon CloudWatch 指标和基于 Nitro 的实例的 Amazon EBS 指标。

监控实时 I/O 性能统计数据

您可以访问附加到基于 Nitro 的 Amazon EC2 实例的 Amazon EBS 卷的实时详细性能统计数据。

您可以将这些统计数据相结合来得出平均延迟和 IOPS，或者检查 I/O 操作是否已完成。您还可以查看应用程序超过 EBS 卷或所附加实例的预调配 IOPS 或吞吐量限制的总时间。通过跟踪这些统计数据随时间推移的增长情况，您可以确定是否需要增加预调配 IOPS 或吞吐量限制，以优化应用程序的性能。详细的性能统计数据还包括读取和写入 I/O 操作的直方图，它们通过跟踪延迟区间内完成的 I/O 操作总数来提供 I/O 延迟的分布情况。

有关更多信息，请参阅 Amazon EBS 详细性能统计数据。