翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
推奨される回復性設定
ディープヘルスチェックを有効にすると、新しいインスタンスが HyperPod クラスターに追加されるたびに (クラスターの作成時または自動ノード交換時)、新しいインスタンスはディープヘルスチェックプロセス (インスタンスレベルのストレステスト) を約 2 時間実行します。以下は、考えられるケースに応じて推奨される回復性設定の組み合わせです。
-
ケース: クラスター内にバックアップリソースとして追加のスペアノードがある場合 (フルキャパシティを使用しない)、またはディープヘルスチェックプロセスがエラーが発生しにくいインスタンスを取得するまで約 2 時間待機できる場合。
推奨事項: クラスターライフサイクル全体でディープヘルスチェック設定を有効にします。ノード自動復旧設定はデフォルトで有効になっています。
-
ケース: 追加のバックアップノードがない場合 (キャパシティはすべてトレーニング負荷に使用されます)。トレーニングジョブを再開するには、できるだけ早く代替ノードを取得する必要があります。
推奨事項: クラスターの作成中にディープヘルスチェックを有効にし、クラスターの作成後にディープヘルスチェック設定をオフにします。ノード自動復旧設定はデフォルトで有効になっています。
-
ケース: 追加のバックアップノードがなく、約 2 時間のディープヘルスチェックプロセス (小規模なクラスター) を待つ必要がない場合。
推奨事項: クラスターのライフサイクル全体でディープヘルスチェック設定を無効にします。ノード自動復旧設定はデフォルトで有効になっています。
障害からトレーニングジョブをすぐに再開する場合、クラスターにバックアップリソースとして追加のスペアノードがあることを確認してください。