部署 FSx for Lustre 驅動程式 - Amazon EKS

協助改善此頁面

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

若要提供此使用者指南,請選擇位於每個頁面右窗格中的在 GitHub 上編輯此頁面連結。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

部署 FSx for Lustre 驅動程式

本主題說明如何將 FSx for Lustre CSI 驅動程式部署到您的 Amazon EKS 叢集,並驗證其是否有效。我們建議您使用最新版的驅動程式。如需可用版本,請參閱 GitHub 上的 CSI 規格相容性對照表

注意

Fargate 或 Amazon EKS 混合節點不支援驅動程式。

如需可用參數的詳細說明,以及示範驅動程式功能的完整範例,請參閱 GitHub 上的 FSx for Lustre Container Storage Interface (CSI) 驅動程式專案。

先決條件

  • 現有的叢集。

  • Amazon FSx CSI 驅動程式 EKS 附加元件需要 EKS Pod Identity 代理程式進行身分驗證。如果沒有此元件,附加元件將會失敗並出現錯誤 Amazon EKS Pod Identity agent is not installed in the cluster,導致磁碟區無法運作。在部署 FSx CSI 驅動程式附加元件之前或之後安裝 Pod Identity 代理程式。如需詳細資訊,請參閱設定 Amazon EKS Pod Identity Agent

  • 裝置或 AWS CloudShell 上安裝和設定的 AWS 命令列界面 (AWS CLI) 版本 1.27.160 2.12.3或更新版本。若要檢查您目前的版本,請使用 aws --version | cut -d / -f2 | cut -d ' ' -f1。適用於 macOS 的 yumapt-get或 Homebrew 等套件管理員通常是最新版本 CLI AWS 後面的幾個版本。若要安裝最新版本,請參閱《 AWS 命令列界面使用者指南》中的使用 aws 設定安裝 和快速組態。 https://docs.aws.amazon.com/cli/latest/userguide/cli-configure-quickstart.html#cli-configure-quickstart-config安裝在 AWS CloudShell 中的 AWS CLI 版本也可能是最新版本後面的幾個版本。若要更新它,請參閱《CloudShell AWS 使用者指南》中的將 CLI 安裝到您的主目錄 AWS CloudShell

  • 裝置或 AWS CloudShell 上安裝的eksctl命令列工具版本 0.210.0或更新版本。如需有關安裝或更新 eksctl 的指示,請參閱 eksctl 文件中的安裝一節。

  • kubectl 命令列工具安裝在您的裝置或 AWS CloudShell 上。版本可以與叢集的 Kubernetes 版本相同,也可以比叢集的 Kubernetes 版本更早或更晚一個次要版本。例如,如果您的叢集版本為 1.29,則可以搭配使用 kubectl 1.281.291.30 版。若要安裝或升級 kubectl,請參閱 設定 kubectl 和 eksctl

步驟 1:建立 IAM 角色

Amazon FSx CSI 外掛程式需要 IAM 許可,才能代表您呼叫 AWS APIs。

注意

除非您封鎖對 IMDS 的存取,否則 Pod 將可存取指派給 IAM 角色的許可。如需詳細資訊,請參閱使用最佳實務保護 Amazon EKS 叢集

下列程序說明如何建立 IAM 角色,並將 AWS 受管政策連接至該角色。

  1. 建立 IAM 角色,並使用下列命令連接 AWS 受管政策。my-cluster 將 取代為您要使用的叢集名稱。命令會部署建立 IAM 角色並將 IAM 政策連接至其中的 AWS CloudFormation 堆疊。

    eksctl create iamserviceaccount \ --name fsx-csi-controller-sa \ --namespace kube-system \ --cluster my-cluster \ --role-name AmazonEKS_FSx_CSI_DriverRole \ --role-only \ --attach-policy-arn arn:aws: iam::aws:policy/AmazonFSxFullAccess \ --approve

    建立服務帳戶時,您會看到幾行輸出。輸出的最後一行類似於下列內容。

    [ℹ] 1 task: { 2 sequential sub-tasks: { create IAM role for serviceaccount "kube-system/fsx-csi-controller-sa", create serviceaccount "kube-system/fsx-csi-controller-sa", } } [ℹ] building iamserviceaccount stack "eksctl-my-cluster-addon-iamserviceaccount-kube-system-fsx-csi-controller-sa" [ℹ] deploying stack "eksctl-my-cluster-addon-iamserviceaccount-kube-system-fsx-csi-controller-sa" [ℹ] waiting for CloudFormation stack "eksctl-my-cluster-addon-iamserviceaccount-kube-system-fsx-csi-controller-sa" [ℹ] created serviceaccount "kube-system/fsx-csi-controller-sa"

    請注意已部署的 AWS CloudFormation 堆疊名稱。在先前的範例輸出中,堆疊被命名為 eksctl-my-cluster-addon-iamserviceaccount-kube-system-fsx-csi-controller-sa

現在您已建立 Amazon FSx CSI 驅動程式 IAM 角色,您可以繼續下一節。當您使用此 IAM 角色部署附加元件時,它會建立並設定為使用名為 的服務帳戶fsx-csi-controller-sa。服務帳戶繫結至clusterrole獲指派所需 Kubernetes 許可的 Kubernetes。

步驟 2:安裝 Amazon FSx CSI 驅動程式

我們建議您透過 Amazon EKS 附加元件安裝 Amazon FSx CSI 驅動程式,以提高安全性並減少工作量。若要將 Amazon EKS 附加元件新增至叢集,請參閱 建立 Amazon EKS 附加元件。如需附加元件的詳細資訊,請參閱 Amazon EKS 附加元件

重要

叢集中預先存在的 Amazon FSx CSI 驅動程式安裝可能會導致附加元件安裝失敗。當您嘗試在存在非 EKS FSx CSI 驅動程式的情況下安裝 Amazon EKS 附加元件版本時,安裝會因為資源衝突而失敗。在安裝期間使用 OVERWRITE旗標來解決此問題。

aws eks create-addon --addon-name aws-fsx-csi-driver --cluster-name my-cluster --resolve-conflicts OVERWRITE

或者,如果您想要自我管理安裝 Amazon FSx CSI 驅動程式,請參閱 GitHub 上的安裝

步驟 3:部署儲存類別、持久性磁碟區宣告和範例應用程式

此程序使用 FSx for Lustre 容器儲存介面 (CSI) 驅動程式 GitHub 儲存庫,來耗用動態佈建的 FSx for Lustre 磁碟區。

  1. 記下叢集的安全群組。您可以在聯網區段 AWS Management Console 下的 中或使用下列 CLI AWS 命令來查看。my-cluster 將 取代為您要使用的叢集名稱。

    aws eks describe-cluster --name my-cluster --query cluster.resourcesVpcConfig.clusterSecurityGroupId
  2. 根據《Amazon FSx for Lustre 使用者指南》中的 Amazon VPC 安全群組中顯示的標準,為您的 Amazon FSx 檔案系統建立安全群組。對於 VPC,選擇叢集的 VPC,如聯網區段所示。對於「與 Lustre 用戶端關聯的安全群組」,請使用您的叢集安全群組。您可以單獨保留傳出規則,以允許 All traffic (所有流量)。

  3. 執行以下命令,下載儲存類別清單檔案。

    curl -O https://raw.githubusercontent.com/kubernetes-sigs/aws-fsx-csi-driver/master/examples/kubernetes/dynamic_provisioning/specs/storageclass.yaml
  4. 編輯 storageclass.yaml 檔案的參數區段。將每個範例值取代為您自己的值。

    parameters: subnetId: subnet-0eabfaa81fb22bcaf securityGroupIds: sg-068000ccf82dfba88 deploymentType: PERSISTENT_1 automaticBackupRetentionDays: "1" dailyAutomaticBackupStartTime: "00:00" copyTagsToBackups: "true" perUnitStorageThroughput: "200" dataCompressionType: "NONE" weeklyMaintenanceStartTime: "7:09:00" fileSystemTypeVersion: "2.12"
    • subnetId – Amazon FSx for Lustre 檔案系統應建立所在的子網路 ID。並非所有可用區域都支援 Amazon FSx for Lustre。開啟位於 https://console.aws.amazon.com/fsx/ 的 Amazon FSx for Lustre 主控台,確認您要使用的子網路位於支援的可用區域中。子網路可以包含您的節點,也可以是不同的子網路或 VPC:

      • 您可以在運算區段下選取節點群組, AWS Management Console 以檢查 中的節點子網路。

      • 如果您指定的子網路與您擁有節點的子網路不同,則必須連接 VPCs,而且您必須確保在安全群組中開啟必要的連接埠。

    • securityGroupIds – 您為檔案系統建立的安全群組 ID。

    • deploymentType (選用) – 檔案系統部署類型。有效值為 SCRATCH_1SCRATCH_2PERSISTENT_1PERSISTENT_2。如需部署類型的詳細資訊,請參閱建立您的 Amazon FSx for Lustre 檔案系統

    • 其他參數 (選用):如需有關其他參數的詳細資訊,請參閱 GitHub 上的編輯 StorageClass

  5. 建立儲存類別清單檔案。

    kubectl apply -f storageclass.yaml

    範例輸出如下。

    storageclass.storage.k8s.io/fsx-sc created
  6. 下載持續性磁碟區宣告清單檔案。

    curl -O https://raw.githubusercontent.com/kubernetes-sigs/aws-fsx-csi-driver/master/examples/kubernetes/dynamic_provisioning/specs/claim.yaml
  7. (選用) 編輯 claim.yaml 檔案。根據您的儲存要求和您在上一個步驟中選取的 deploymentType,將 1200Gi 變更為下列某一個增量值。

    storage: 1200Gi
    • SCRATCH_2PERSISTENT1.2 TiB2.4 TiB,超過 2.4 TiB 則以 2.4 TiB 為單位遞增。

    • SCRATCH_11.2 TiB2.4 TiB3.6 TiB,超過 3.6 TiB 則以 3.6 TiB 為單位遞增。

  8. 建立持續性磁碟區宣告。

    kubectl apply -f claim.yaml

    範例輸出如下。

    persistentvolumeclaim/fsx-claim created
  9. 確認已佈建檔案系統。

    kubectl describe pvc

    範例輸出如下。

    Name: fsx-claim Namespace: default StorageClass: fsx-sc Status: Bound [...]
    注意

    Status 可能會顯示為 Pending 約 5-10 分鐘,然後變更為 Bound。在 Status為 之前,請勿繼續下一個步驟Bound。如果 Status 顯示 Pending 超過 10 分鐘,請使用 Events 中的警告訊息作為解決任何問題的參考。

  10. 部署範例應用程式。

    kubectl apply -f https://raw.githubusercontent.com/kubernetes-sigs/aws-fsx-csi-driver/master/examples/kubernetes/dynamic_provisioning/specs/pod.yaml
  11. 確認範例應用程式正在執行。

    kubectl get pods

    範例輸出如下。

    NAME READY STATUS RESTARTS AGE fsx-app 1/1 Running 0 8s
  12. 驗證應用程式是否正確掛載了檔案系統。

    kubectl exec -ti fsx-app -- df -h

    範例輸出如下。

    Filesystem Size Used Avail Use% Mounted on overlay 80G 4.0G 77G 5% / tmpfs 64M 0 64M 0% /dev tmpfs 3.8G 0 3.8G 0% /sys/fs/cgroup 192.0.2.0@tcp:/abcdef01 1.1T 7.8M 1.1T 1% /data /dev/nvme0n1p1 80G 4.0G 77G 5% /etc/hosts shm 64M 0 64M 0% /dev/shm tmpfs 6.9G 12K 6.9G 1% /run/secrets/kubernetes.io/serviceaccount tmpfs 3.8G 0 3.8G 0% /proc/acpi tmpfs 3.8G 0 3.8G 0% /sys/firmware
  13. 確認範例應用程式是否已將資料寫入 FSx for Lustre 檔案系統。

    kubectl exec -it fsx-app -- ls /data

    範例輸出如下。

    out.txt

    此範例輸出顯示範例應用程式成功地將 out.txt 檔案寫入檔案系統。

注意

刪除叢集之前,請確認刪除 FSx for Lustre 檔案系統。如需詳細資訊,請參閱 《FSx for Lustre 使用者指南》中的清除資源

FSx for Lustre 的效能調校

搭配 Amazon EKS 使用 FSx for Lustre 時,您可以在節點初始化期間套用 Lustre 調校,以最佳化效能。建議的方法是使用啟動範本使用者資料,以確保所有節點的組態一致。

這些調校包括:

  • 網路和 RPC 最佳化

  • Lustre 模組管理

  • LRU (鎖定資源單位) 調校

  • 用戶端快取控制設定

  • OST 和 MDC 的 RPC 控制

如需實作這些效能調校的詳細說明: