本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
可靠性
可靠性是 SAP Lens——Well-Architecte AWS d Framework 的六大支柱之一。有关更多信息,请参阅可靠性。
AWS云在一个区域内有多个可用区,AWS可提供可靠性。这使您的 SAP 应用程序AWS能够更具弹性。各个区域之间相互隔离,从而实现了尽可能高的容错能力和稳定性。在每个AWS区域内,至少有三个隔离、物理上独立的可用区。有关更多信息,请参阅区域和可用区
相比单个数据中心,通过可用区,您运行的生产应用程序和数据库可以获得更高的可用性。通过将应用程序分布在多个可用区中,您在面对大多数故障模式(包括自然灾害或系统故障)时能够保持韧性。
每个可用区可包含多个数据中心。在完全扩展的情况下,单个可用区可容纳数十万台服务器。它们是AWS全球基础设施的完全隔离的分区。各个可用区之间在物理上是相互隔离的,并拥有自己的电力和联网资源。可用区之间有距离间隔,不过都在 100 公里以内(彼此相距 60 英里)。此距离可使可用区免受洪水、火灾、强风暴、地震等最常见的数据中心灾害影响。
一个区域中的所有可用区都采用完全冗余的专用城域光纤,实现高带宽和低延迟的网络互联。这确保了可用区间的高吞吐量、低延迟联网。网络性能足以实现同步复制。
可用区支持您以高可用方式运行应用程序,实现可用区之间的同步数据复制与自动失效转移。RISE with SAP 可以为您的每个AWS地区的工作负载提供如此高的可用性设计。
恢复能力与成本注意事项
SAP 为 RISE 提供了多种选项,以满足不同的恢复能力需求。通过 SAP 提供的选项包,可针对 RISE 调整以下核心需求:
-
服务水平协议(SLA)- 描述解决方案的目标可用性。
-
恢复时间目标(RTO)- 描述灾难事件发生后,恢复工作应完成的目标时长。
-
恢复点目标(RPO)- 描述灾难事件恢复过程中,可能发生的数据丢失的目标级别。
有关更多详细信息,请参阅 SAP 在 RISE 协议中提供的相关定义,了解违约情况下的具体定义、条款、影响及处罚。
中断对组织造成的影响以及数据丢失,可能会导致生产率降低、收入损失,并损害声誉。权衡成本与恢复能力之间的关系,有助于评测组织面临的风险。
恢复能力与性能注意事项
当您在 RISE 中选择短距离灾难恢复选项时,SAP 应用服务器和数据库服务器将跨多个可用区进行部署。此架构支持针对您的 SAP 工作负载的高可用设计。
在主动-主动配置下,在多个可用区中使用应用程序服务器时,可提升恢复能力。同时,这也会增加从应用程序服务器到数据库服务器的跨可用区延迟。您可以参阅 SAP Note 3496343
-
根据 SAP Note 1100926
,SAP 应用程序服务器与数据库服务器之间的网络延迟应低于 0.7 毫秒 -
使用同步数据复制(实现零数据丢失所需的)的 HANA 系统复制的网络延迟应 less than 1 millisecond
您可以使用 AWS Network Manager - 基础设施性能工具自动测量可用区间、可用区内部以及区域间的网络延迟。您也可以根据 SAP Note 2986631
当 SAP 应用程序服务器和数据库服务器分布在多个可用区 (AZs) 时,它可以显著增强系统的可靠性和可用性,抵消网络延迟增加的影响。
跨可用区流量可能会增加执行某些需频繁调用数据库的事务或批处理作业所需的时间。如果影响很大,我们建议使用 SAP 登录组、RFC 服务器
为了在与数据库服务器位于同一可用区的应用程序服务器上自动化和优化此类性能关键型批处理作业和事务的运行,AWS提供了客户可以在其 S AP 系统中测试和实施的 ABAP 代码示例
您可以参阅 AWS re:Post 文章“SAP 的可用区间延迟”
当无法在多个可用区的主动-主动模式下运行应用程序服务器时,您可以使用 ABAPSetServerInactive (
在极少数情况下,如果您发现同一可用区内的延迟对性能产生了影响,可使用集群置放群组来实现尽可能低的延迟。您可以从中参阅《放置策略指南》AWS。
总的来说,以下是多可用区部署中的架构模式:
| 中的应用程序服务器 AZ1 | 中的应用程序服务器 AZ2 | 故障转移机制从 AZ1 到 AZ2 |
|---|---|---|
|
活动 |
活动 |
自动化脚本(即 pacemaker) |
|
活动 |
活动 |
手动调整 Logon Groups、RFC Server Groups 和 Batch Server Groups |
|
活动 |
活动 |
用于调整 Logon Groups、RFC Server Groups 和 Batch Server Groups 的自动化脚本 |
|
活动 |
Passive |
手动激活被动应用程序服务器 |
|
活动 |
Passive |
用于激活被动应用程序服务器的自动化脚本 |
要实现 SAP 工作负载的高可靠性,我们建议完成以下任务:
-
与 SAP 讨论 RISE 部署的可用性 SLA 要求。这将决定需跨多个可用区部署的组件(即数据库服务器和应用程序服务器),从而最大限度地提升 RISE 的可靠性与可用性。
-
如果您的业务场景涉及频繁调用数据库服务器的批处理作业 and/or ,可能会受到可用区间网络延迟的不利影响,则可以考虑使用 SAP 的工作负载分配机制(SAP 登录组、RFC 服务器组和 Batch Server 组)来确保这些作业和事务在与数据库服务器位于同一可用区的应用程序服务器上运行
-
你可以通过参阅 re AWS: Post 文章 SAP 的可用区间延迟来进一步优化网络延迟。
-
当主动-主动模式不可行时,您可以使用 ABAPSetServerInactive (SAP Note 3075829)在应用程序服务器的主动-被动模式下运行。
-
可考虑将 RISE 之外的其他工作负载部署在同一可用区内,以实现更低的网络延迟和数据传输成本。
灾难恢复选项
您可以通过将数据复制到第二个AWS区域来实施灾难恢复解决方案。在发生罕见的本地故障或区域故障时,您的 SAP 工作负载将受到保护。
RISE with SAP S/4HANA Cloud 私有版提供以下两种选项。
-
短距离灾难恢复或城域灾难恢复 — RISE with SAP 在一个AWS区域中使用多个可用区。具有三个或更多可用区的独特AWS区域提供了在每个AWS区域进行短距离灾难恢复的选项。
-
远距离灾难恢复或区域灾难恢复 — RISE with SAP 使用辅助AWS区域作为故障转移系统的备用区域。由于两个区域之间的物理距离,因此数据是在两个AWS区域之间异步复制的。AWS
有关更多详细信息,请参阅 SAP 文档:SAP Service Description: Disaster Recovery and Customer Invoked Failover