本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 管理高可用性 (HA) 對
<a name="HA-pairs"></a>

每個 FSx for ONTAP 檔案系統都由作用中待命組態中的一或多個檔案伺服器的高可用性 (HA) 對提供支援。在此組態中，有一個偏好的檔案伺服器，可主動為流量提供服務，而次要檔案伺服器會在作用中伺服器無法使用時接管。FSx for ONTAP 第一代檔案系統由一個 HA 對提供支援，可提供高達 4 GBps 的輸送量容量和 160，000 個 SSD IOPs。FSx for ONTAP 第二代異地同步備份檔案系統也採用一個 HA 對，可提供高達 6 GBps 的輸送量容量和 200，000 SSD IOPS。FSx for ONTAP 第二代單一可用區檔案系統支援最多 12 個 HA 對，可提供高達 72 GBps 的輸送量容量和 2，400，000 個 SSD IOPS （每個 HA 對 6 GBps 的輸送量容量和 200，000 個 SSD IOPS)。

當您從 Amazon FSx 主控台建立檔案系統時，Amazon FSx 建議您根據所需的 SSD 儲存體使用 HA 對的數量。您也可以根據您的工作負載和效能需求，手動選擇 HA 對的數量。如果您的檔案系統需求滿足高達 6 GBps 的輸送量容量和 200，000 個 SSD IOPs，我們建議您使用單一 HA 對，如果您的工作負載需要更高層級的效能可擴展性，則使用多個 HA 對。

每個 HA 對都有一個彙總，這是一組邏輯的實體磁碟。

**注意**  
您可以將 HA 對新增至第二代單一可用區檔案系統。如需詳細資訊，請參閱[新增高可用性 (HA) 對](adding-HA-pairs.md)。否則，您可以使用 ，或在檔案系統之間遷移資料 （使用不同的 HA 對）SnapMirror AWS DataSync，或將資料從備份還原到新的檔案系統。

# 新增高可用性 (HA) 對
<a name="adding-HA-pairs"></a>

ONTAP 檔案系統的 FSx 由一或多個檔案伺服器的 HA 對組成。第一代檔案系統和第二代多可用區域檔案系統支援一個 HA 對，第二代單一可用區域檔案系統則支援最多 12 個 HA 對。您也可以在建立第二代單一可用區檔案系統後新增更多 HA 對 （最多 12 個）。新增 HA 對不會中斷，通常只需要幾分鐘就能完成。

將 HA 對新增至檔案系統時，請考慮下列幾點：
+ 將 HA 對新增至您的檔案系統，會引入具有自己的儲存體 （或彙總） 的新檔案伺服器。新的 HA 對具有與您檔案系統現有 HA 對相同的輸送量容量和儲存容量。例如，假設您的檔案系統有兩個 HA 對，總輸送量容量為 12 GBps，而 SSD 儲存容量為 2 tebibyte (TiB)。如果您新增一個新的 HA 對，則檔案系統會有 18 GBps 的輸送量容量和 3 TiB 的 SSD 儲存體。
+ 若要受益於新 HA 對的額外效能，您需要將一些現有磁碟區移至新 HA 對，並重新掛載用戶端以連接到它們。如需詳細資訊，請參閱[平衡跨 HA 對的工作負載](monitor-workload-balance.md)。
+ 新增 HA 對或正在更新以新增 HA 對時，您無法修改檔案系統的輸送量容量、SSD 儲存容量或佈建的 SSD IOPS。
+ 新增 HA 對後就無法移除它們。如果您需要暫時提高效能 （假設您的檔案系統未處於最高輸送量容量），建議您擴展檔案系統的輸送量容量。這會增加檔案系統現有 HA 對的輸送量容量。
+ iSCSI 通訊協定適用於具有六個或更少高可用性對 (HA 對） 的檔案系統。NVMe/TCP 通訊協定適用於具有六個或更少 HA 對的第二代檔案系統。如需詳細資訊，請參閱[存取 FSx for ONTAP 資料](supported-fsx-clients.md)。
+ 當您將新的 HA 對新增至檔案系統時，預設會為新的檔案系統節點啟用 NVMe 快取。我們建議針對輸送量密集的工作負載停用此功能。如需詳細資訊，請參閱[管理 NVMe 快取](nvme-cache.md)。

**新增 HA 對**

1. 在 [https://console.aws.amazon.com/fsx/](https://console.aws.amazon.com/fsx/)：// 開啟 Amazon FSx 主控台。

1. 若要顯示檔案系統詳細資訊頁面，請在左側導覽窗格中選擇**檔案系統**，然後選擇您要更新的 FSx for ONTAP 檔案系統。

1. 在**摘要**面板上，針對 **HA 對的數量**，選擇**更新**。

1. 從 **HA 對**下拉式清單中，選取要新增至檔案系統的 HA 對數目。

1. 選擇**更新**按鈕。

新增 HA 對後，請務必重新平衡現有資料，以確保您的 I/O 在檔案系統的 HA 對中保持平均分佈。如需詳細資訊，請參閱[平衡跨 HA 對的工作負載](monitor-workload-balance.md)。

# 平衡跨 HA 對的工作負載
<a name="monitor-workload-balance"></a>

如果您有具有多個高可用性 (HA) 對的檔案系統，則其輸送量和儲存體會分散到每個 HA 對。FSx for ONTAP 會在您的檔案系統寫入檔案時自動平衡檔案，但您的工作負載資料和 I/O 在您新增 HA 對後不再平衡。此外，在極少數情況下，您的工作負載資料或 I/O 在檔案系統的現有 HA 對之間可能會變得不平衡，這可能會影響工作負載的整體效能。如果您的工作負載曾經不平衡，您可以重新平衡每個檔案系統的 HA 對 （及其對應的檔案伺服器和*彙總，*也就是構成主要儲存層的儲存集區）。

**Topics**
+ [主要儲存使用率餘額](#primary-storage-balance)
+ [檔案伺服器和磁碟效能使用率不平衡](#server-disk-imbalance)
+ [將 CloudWatch 維度映射至 ONTAP CLI 和 REST API 資源](#map-dimensions-to-resources)
+ [重新平衡用戶端](#rebalancing-clients)
+ [重新平衡磁碟區](#rebalancing-volumes)

## 主要儲存使用率餘額
<a name="primary-storage-balance"></a>

檔案系統的主要儲存容量會平均分配到儲存集區中稱為彙總的每個 HA 對。每個 HA 對都有一個彙總。我們建議您持續維持主要儲存層的平均使用率不高於 80%。對於具有多個 HA 對的檔案系統，我們建議您為每個彙總維持高達 80% 的平均使用率。

維持 80% 的使用率可確保新的傳入資料有可用空間，並維持維護操作良好的額外負荷，可暫時取得彙總的可用空間。

如果您注意到彙總不平衡，您可以增加檔案系統的主要儲存容量 （相對增加每個彙總的儲存容量），也可以在彙總之間移動磁碟區。如需詳細資訊，請參閱[在彙總之間移動磁碟區](moving-fg-volumes.md)。

## 檔案伺服器和磁碟效能使用率不平衡
<a name="server-disk-imbalance"></a>

檔案系統的整體效能功能 （例如網路輸送量、檔案伺服器到磁碟輸送量和 IOPS，以及磁碟 IOPS) 會平均分配到檔案系統的 HA 對。我們建議您持續維持所有效能限制的平均使用率低於 50% （最高尖峰使用率低於 80%)，這適用於所有 HA 對的檔案系統檔案伺服器資源的整體使用率，以及每個檔案伺服器的整體使用率。

如果您注意到檔案伺服器效能使用率不平衡，且工作負載不平衡的檔案伺服器持續使用率超過 80%，您可以使用 ONTAP CLI 和 REST API 進一步診斷效能不平衡的原因並進行修復。以下是可能不平衡指標的表格，以及進一步診斷的後續步驟。


| 如果您的檔案系統的... | Then... | 
| --- | --- | 
| 檔案伺服器磁碟輸送量或檔案伺服器磁碟 IOPS 不平衡 | 您可能會遇到 HA 對子集 （包含所存取資料量過大的磁碟區子集） 上的 I/O 熱點，這可能會限制工作負載的整體效能，因為它對 HA 對子集造成瓶頸。對於每個高度使用的檔案伺服器，請檢查最常使用的磁碟區，以查看哪些磁碟區在彙總中的活動最多。如需此程序的詳細資訊，請參閱[重新平衡磁碟區](#rebalancing-volumes)。 | 
| 網路輸送量不平衡，但您的檔案伺服器磁碟輸送量、檔案伺服器磁碟 IOPS 或磁碟 IOPS 不平衡  | 您的資料會平均分散到 HA 對，但您的用戶端不會。對於網路輸送量使用率高於其他的檔案伺服器，請檢查每個檔案伺服器的最高用戶端，然後從這些用戶端卸載任何磁碟區，並在不同的 HA 對上使用不同的端點重新掛載這些用戶端，以重新平衡這些用戶端。如需此程序的詳細資訊，請參閱[重新平衡用戶端](#rebalancing-clients)。  | 

## 將 CloudWatch 維度映射至 ONTAP CLI 和 REST API 資源
<a name="map-dimensions-to-resources"></a>

您的第二代檔案系統具有 `FileServer`或 `Aggregate`維度的 Amazon CloudWatch 指標。為了進一步診斷不平衡的情況，您需要將這些維度值映射到 ONTAP CLI 或 REST API 中的特定檔案伺服器 （或*節點*) 和彙總。
+ 對於檔案伺服器，每個檔案伺服器名稱都會映射到 ONTAP 中的檔案伺服器 （或節點） 名稱 （例如 `FsxId01234567890abcdef-01`)。奇數檔案伺服器是偏好的檔案伺服器 （也就是，除非檔案系統容錯移轉至次要檔案伺服器，否則它們會服務流量），而偶數檔案伺服器是次要檔案伺服器 （也就是，只有在其合作夥伴無法使用時，才會提供流量）。因此，次要檔案伺服器通常會比偏好的檔案伺服器顯示較少的使用率。
+ 對於彙總，每個彙總名稱都會映射到 ONTAP 中的彙總 （例如，`aggr1`)。每個 HA 對都有一個彙總，這表示彙總`aggr1`是由 HA 對中的檔案伺服器 `FsxId01234567890abcdef-01`（作用中檔案伺服器） 和 `FsxId01234567890abcdef-02`（次要檔案伺服器） 共用，彙總`aggr2`是由檔案伺服器 `FsxId01234567890abcdef-03`和 共用`FsxId01234567890abcdef-04`，以此類推。

您可以使用 ONTAP CLI 檢視所有彙總和檔案伺服器之間的映射。

1.  若要在檔案系統的 NetApp ONTAP CLI 中 SSH，請遵循《*Amazon FSx for NetApp ONTAP 使用者指南*》[使用 NetApp ONTAP CLI](managing-resources-ontap-apps.md#netapp-ontap-cli)一節中記載的步驟。

   ```
   ssh fsxadmin@file-system-management-endpoint-ip-address
   ```

1. 使用[儲存彙總 show](https://docs.netapp.com/us-en/ontap-cli-9131/storage-aggregate-show.html) 命令，指定 `-fields node` 參數。

   ```
   ::> storage aggregate show -fields node
   aggregate                       node                      
   ------------------------------- ------------------------- 
   aggr1                           FsxId01234567890abcdef-01
   aggr2                           FsxId01234567890abcdef-03
   aggr3                           FsxId01234567890abcdef-05 
   aggr4                           FsxId01234567890abcdef-07
   aggr5                           FsxId01234567890abcdef-09
   aggr6                           FsxId01234567890abcdef-11 
   6 entries were displayed.
   ```

## 重新平衡用戶端
<a name="rebalancing-clients"></a>

新增 HA 對後，或者如果您在檔案伺服器之間遇到 I/O 不平衡 （特別是網路輸送量使用率），您可以重新平衡用戶端。如果在新增 HA 對後重新平衡用戶端，您可以跳到 [重新掛載用戶端](#remounting-clients)。否則，您應該先識別要移動的高流量用戶端，以重新平衡工作負載 I/O。

如果您遇到跨檔案伺服器 （特別是網路輸送量使用率） 的 I/O 不平衡，高 I/O 用戶端可能是原因。若要識別高流量用戶端，請使用 ONTAP CLI。

**識別高流量用戶端**

1. 若要在檔案系統的 NetApp ONTAP CLI 中 SSH，請遵循《*Amazon FSx for NetApp ONTAP 使用者指南*》[使用 NetApp ONTAP CLI](managing-resources-ontap-apps.md#netapp-ontap-cli)一節中記載的步驟。

   ```
   ssh fsxadmin@file-system-management-endpoint-ip-address
   ```

1. 若要檢視最高流量的用戶端，請使用[統計資料頂端用戶端 show](https://docs.netapp.com/us-en/ontap-cli-9131/statistics-top-client-show.html) ONTAP CLI 命令。您可以選擇性地指定 `-node` 參數，只檢視特定檔案伺服器的熱門用戶端。如果您診斷特定檔案伺服器的不平衡，請使用 `-node` 參數，`node_name`將 取代為檔案伺服器的名稱 （例如 `FsxId01234567890abcdef-01`)。

   您可以選擇性地新增 `-interval` 參數，提供輸出每個報告之前要測量的間隔 （以秒為單位）。增加間隔 （例如，最多 300 秒） 可為驅動到每個磁碟區的流量提供長期範例。預設值為 `5`（秒）。

   ```
   ::> statistics top client show -node FsxId01234567890abcdef-01 [-interval [5,300]]
   ```

   在輸出中，最高用戶端會以其 IP 地址和連接埠顯示。

   ```
                                                          *Total     Total
               Client   Vserver          Node                Ops     (Bps)
   ------------------ --------- ------------------------- ------ ---------
    172.17.236.53:938 svm01     FsxId01234567890abcdef-01   2143 140443648
   172.17.236.160:898 svm02     FsxId01234567890abcdef-01    812  53215232
   ```<a name="remounting-clients"></a>

**重新掛載用戶端**
+ 您可以重新平衡用戶端到其他 HA 對。若要這樣做，請從用戶端卸載磁碟區，並使用 SVM NFS/SMB 端點的 DNS 名稱重新掛載磁碟區，這會傳回對應於隨機 HA 對的隨機端點。

  我們建議您重複使用 DNS 名稱，但您可以選擇明確選擇指定用戶端掛載的 HA 對。若要保證您將用戶端掛載到不同的端點，您可以改為指定與對應到發生高流量的檔案伺服器不同的端點 IP 地址。您可以執行下列命令來執行此操作：

  ```
  ::> network interface show -vserver svm_name -lif nfs_smb_management* -fields address,curr-node
  vserver   lif                  address      curr-node                 
  --------- -------------------- ------------ ------------------------- 
  svm01 nfs_smb_management_1 172.31.15.89 FsxId01234567890abcdef-01 
  svm01 nfs_smb_management_3 172.31.8.112 FsxId01234567890abcdef-03 
  2 entries were displayed.
  ```

  根據 `statistics top client show`命令的範例輸出，用戶端`172.17.236.53`正在將高流量驅動到 `FsxId01234567890abcdef-01`。`network interface show` 命令的輸出指出這是地址 `172.31.15.89`。若要掛載到不同的端點，請選取任何其他地址 （在此範例中，唯一的其他地址是 `172.31.8.112`，對應至 `FsxId01234567890abcdef-03`)。

## 重新平衡磁碟區
<a name="rebalancing-volumes"></a>

如果您在磁碟區或彙總中遇到 I/O 不平衡，您可以重新平衡磁碟區，以將 I/O 流量重新分配到磁碟區。

**注意**  
如果您在彙總中遇到儲存使用率不平衡，通常不會有任何效能影響，除非高使用率與 I/O 不平衡結合。雖然您可以在彙總之間移動磁碟區以平衡儲存使用率，但我們建議您只在看到效能影響時移動磁碟區，因為如果您不考慮將 I/O 驅動到您考慮移動的每個磁碟區，移動磁碟區可能會對效能產生負面影響。

1. 若要在檔案系統的 NetApp ONTAP CLI 中 SSH，請遵循《*Amazon FSx for NetApp ONTAP 使用者指南*》[使用 NetApp ONTAP CLI](managing-resources-ontap-apps.md#netapp-ontap-cli)一節中記載的步驟。

   ```
   ssh fsxadmin@file-system-management-endpoint-ip-address
   ```

1. 使用[統計資料磁碟區 show](https://docs.netapp.com/us-en/ontap-cli-9131/statistics-volume-show.html) ONTAP CLI 命令來檢視指定彙總的最高流量磁碟區，變更如下：
   + 將 *aggregate\$1name* 取代為彙總的名稱 （例如，`aggr1`)。
   + 您可以選擇性地新增 `-interval` 參數，提供輸出每個報告之前要測量的間隔 （以秒為單位）。增加間隔 （例如，最多 300 秒） 可為驅動到每個磁碟區的流量提供長期範例。預設值為 `5`（秒）。

   ```
   ::> statistics volume show -aggregate aggregate_name -sort-key total_ops [-interval [5,300]]
   ```

   根據您選擇的間隔，最多可能需要 5 分鐘才能顯示資料。命令會顯示彙總中的所有磁碟區，以及驅動至每個彙總的流量。

   ```
                                *Total Read Write Other      Read Write Latency 
       Volume Vserver Aggregate    Ops  Ops   Ops   Ops     (Bps) (Bps)    (us) 
   ---------- ------- --------- ------ ---- ----- ----- --------- ----- ------- 
   vol1__0007    svm1     aggr1   4078 4078     0     0 267255808     0    1092 
   vol1__0005    svm1     aggr1   4078 4078     0     0 267255808     0    1086 
   vol1__0003    svm1     aggr1   4077 4077     0     0 267223040     0    1086 
   vol1__0001    svm1     aggr1   4077 4077     0     0 267239424     0    1087 
   vol1__0008    svm1     aggr2   2314 2314     0     0 151650304     0    1112 
   vol1__0006    svm1     aggr2   2144 2144     0     0 140509184     0    1104 
   vol1__0002    svm1     aggr2   2183 2183     0     0 143065088     0    1106 
   vol1__0004    svm1     aggr2   2183 2183     0     0 143065088     0    1103
   ```

   磁碟區統計資料是以每個成分為基礎顯示 （例如， `vol1__0015` 是 的第 FlexGroup 15 個成分`vol1`)。您可以從範例輸出中看到 的元件比 的元件使用率`aggr1`更高`aggr2`。若要平衡彙總之間的流量，您可以在彙總之間移動組成磁碟區，以便更平均地分配流量。

1. 如果您已新增新的 HA 對，則應該將現有的磁碟區移至新的彙總。如需詳細資訊，請參閱[在彙總之間移動磁碟區](moving-fg-volumes.md)。