翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
クラスターの作成を試行する
AWS ParallelCluster バージョン 3.5.0 以降を使用してクラスターを作成し、 を --rollback-on-failureに設定してクラスターの作成が失敗した場合false、 pcluster describe-cluster CLI コマンドを使用してステータスと障害情報を取得します。この場合、pcluster describe-cluster の clusterStatus の正常な出力は CREATE_FAILED です。出力の failures セクションを確認して、failureCode と failureReason を見つけます。次のセクションで一致する failureCode を探して、その他のトラブルシューティングについてのヘルプを見つけます。詳細については、「pcluster describe-cluster」を参照してください。
次のセクションでは、/var/log/cfn-init.log や /var/log/chef-client.log ファイルなど、ヘッドノードのログを確認することをお勧めします。 AWS ParallelCluster ログとその表示方法の詳細については、デバッグ用のキーログ「」および「」を参照してくださいログの取得と保存。
がない場合はfailureCode、 CloudFormation コンソールに移動してクラスタースタックを表示します。HeadNodeWaitCondition の Status Reason、または他のリソースの障害を確認して、失敗に関するその他の詳細を確認します。詳細については、「で CloudFormation イベントを表示する CREATE_FAILED」を参照してください。ヘッドノードの /var/log/cfn-init.log および /var/log/chef-client.log ファイルを確認します。ヘッドノードの作成に失敗したためにクラスターの作成に失敗し、クラスターログがクラスターロググループで利用できない場合は、クラスターを失敗時に保持し、--rollback-on-failure= を指定Trueして、ヘッドノード自体内からログを取得する必要があります。
failureCode が OnNodeConfiguredExecutionFailure
-
失敗した原因
クラスターを作成するために、設定のヘッドノードセクションの
OnNodeConfiguredにカスタムスクリプトを指定しました。しかし、カスタムスクリプトの実行に失敗しました。 -
解決方法
/var/log/cfn-init.logファイルを確認して、障害の詳細とカスタムスクリプトの問題の修正方法を確認します。このログの最後の方で、Running command runpostinstallメッセージの後にOnNodeConfiguredスクリプトに関連する実行情報が表示される場合があります。
failureCode が OnNodeConfiguredDownloadFailure
-
失敗した原因
クラスターを作成するために、設定のヘッドノードセクションの
OnNodeConfiguredにカスタムスクリプトを指定しました。しかし、カスタムスクリプトのダウンロードに失敗しました。 -
解決方法
URL が有効で、アクセスが正しく設定されていることを確認します。カスタムブートストラップスクリプトの設定に関する詳細については、「カスタムブートストラップアクション」を参照してください。
/var/log/cfn-init.logファイルを確認してください。このログの最後の方で、Running command runpostinstallメッセージの後に、ダウンロードを含めOnNodeConfiguredスクリプトの処理に関連する実行情報が表示される場合があります。
failureCode が OnNodeConfiguredFailure
-
失敗した原因
クラスターを作成するために、設定のヘッドノードセクションの
OnNodeConfiguredにカスタムスクリプトを指定しました。ただし、クラスターのデプロイにおいてカスタムスクリプトの使用に失敗しました。即時に原因を判断できないため、追加の調査が必要です。 -
解決方法
/var/log/cfn-init.logファイルを確認してください。このログの最後の方で、Running command runpostinstallメッセージの後にOnNodeConfiguredスクリプトの処理に関連する実行情報が表示される場合があります。
failureCode が OnNodeStartExecutionFailure
-
失敗した原因
クラスターを作成するために、設定のヘッドノードセクションの
OnNodeStartにカスタムスクリプトを指定しました。しかし、カスタムスクリプトの実行に失敗しました。 -
解決方法
/var/log/cfn-init.logファイルを確認して、障害の詳細とカスタムスクリプトの問題の修正方法を確認します。このログの最後の方で、Running command runpreinstallメッセージの後にOnNodeStartスクリプトに関連する実行情報が表示される場合があります。
failureCode が OnNodeStartDownloadFailure
-
失敗した原因
クラスターを作成するために、設定のヘッドノードセクションの
OnNodeStartにカスタムスクリプトを指定しました。しかし、カスタムスクリプトのダウンロードに失敗しました。 -
解決方法
URL が有効で、アクセスが正しく設定されていることを確認します。カスタムブートストラップスクリプトの設定に関する詳細については、「カスタムブートストラップアクション」を参照してください。
/var/log/cfn-init.logファイルを確認してください。このログの最後の方で、Running command runpreinstallメッセージの後に、ダウンロードを含めOnNodeStartスクリプトの処理に関連する実行情報が表示される場合があります。
failureCode が OnNodeStartFailure
-
失敗した原因
クラスターを作成するために、設定のヘッドノードセクションの
OnNodeStartにカスタムスクリプトを指定しました。ただし、クラスターのデプロイにおいてカスタムスクリプトの使用に失敗しました。即時に原因を判断できないため、追加の調査が必要です。 -
解決方法
/var/log/cfn-init.logファイルを確認してください。このログの最後の方で、Running command runpreinstallメッセージの後にOnNodeStartスクリプトの処理に関連する実行情報が表示される場合があります。
failureCode が EbsMountFailure
-
失敗した原因
クラスター設定で定義されている EBS ボリュームのマウントに失敗しました。
-
解決方法
失敗の詳細について、
/var/log/chef-client.logファイルを確認します。
failureCode が EfsMountFailure
-
失敗した原因
クラスター設定で定義されている Amazon EFS ボリュームのマウントに失敗しました。
-
解決方法
既存の Amazon EFS ファイルシステムを定義した場合は、クラスターとファイルシステムの間のトラフィックが許可されていることを確認します。詳細については、「SharedStorage」/「EfsSettings」/「FileSystemId」を参照してください。
失敗の詳細について、
/var/log/chef-client.logファイルを確認します。
failureCode が FsxMountFailure
-
失敗した原因
クラスター設定で定義されている Amazon FSx ファイルシステムのマウントに失敗しました。
-
解決方法
既存の Amazon FSx ファイルシステムを定義した場合は、クラスターとファイルシステムの間のトラフィックが許可されていることを確認します。詳細については、「SharedStorage」/「FsxLustreSettings」/「FileSystemId」を参照してください。
失敗の詳細について、
/var/log/chef-client.logファイルを確認します。
failureCode が RaidMountFailure
-
失敗した原因
クラスター設定で定義されている RAID ボリュームのマウントに失敗しました。
-
解決方法
失敗の詳細について、
/var/log/chef-client.logファイルを確認します。
failureCode が AmiVersionMismatch
-
失敗した原因
カスタム AMI の作成に使用される AWS ParallelCluster バージョンは、クラスターの設定に使用される AWS ParallelCluster バージョンとは異なります。CloudFormation コンソールで、クラスターの CloudFormation スタックの詳細を表示し、
Status Reasonで をチェックHeadNodeWaitConditionして、 AWS ParallelCluster バージョンと AMI の詳細を確認します。詳細については、「で CloudFormation イベントを表示する CREATE_FAILED」を参照してください。 -
解決方法
カスタム AMI の作成に使用した AWS ParallelCluster バージョンが、クラスターの設定に使用した AWS ParallelCluster バージョンと同じであることを確認します。カスタム AMI のバージョン、または
pclusterCLI のバージョンのいずれかを変更して同じにすることができます。
failureCode が InvalidAmi
-
失敗した原因
カスタム AMI は、 を使用して構築されていないため、無効です AWS ParallelCluster。
-
解決方法
pcluster build-imageコマンドを使用し、独自の AMI を親イメージにして AMI を作成します。詳細については、「pcluster build-image」を参照してください。
failureCode が HeadNodeBootstrapFailure と failureReason で、ヘッドノードの設定に失敗した。
-
失敗した原因
即時に原因を判断できないため、追加の調査が必要です。例えば、クラスターが保護ステータスにある場合や、静的コンピューティングフリートのプロビジョニングの失敗により発生した可能性があります。
-
解決方法
失敗の詳細について、
/var/log/chef-client.log.ファイルを確認します。注記
RuntimeError例外Cluster state has been set to PROTECTED mode due to failures detected in static node provisioningが表示された場合、クラスターは保護ステータスにあります。詳細については、「保護モードをデバッグする方法」を参照してください。
failureCode は HeadNodeBootstrapFailure で、failureReason クラスター作成がタイムアウトした。
-
失敗した原因
デフォルトでは、クラスターの作成が完了するのに 30 分の時間制限があります。このタイムフレーム内でクラスターの作成が完了しない場合、クラスターの作成はタイムアウトエラーで失敗します。クラスターの作成は、さまざまな理由でタイムアウトになる可能性があります。例えば、タイムアウトによる失敗は、ヘッドノード作成の失敗、ネットワークの問題、ヘッドノードでの実行に時間がかかりすぎるカスタムスクリプト、コンピューティングノードで実行されるカスタムスクリプトのエラー、またはコンピューティングノードのプロビジョニングの待ち時間が長いことにより発生する可能性があります。即時に原因を判断できないため、追加の調査が必要です。
-
解決方法
失敗の詳細について、
/var/log/cfn-init.logと/var/log/chef-client.logファイルを確認します。 AWS ParallelCluster ログとその取得方法に関する詳細については、「デバッグ用のキーログ」と「ログの取得と保存」を参照してください。これらのログで、次のことが見つかることがあります。
-
chef-client.logの最後の方にあるWaiting for static fleet capacity provisioningが表示されているこれは、静的ノードの電源が入るのを待機しているときにクラスターの作成がタイムアウトしたことを示しています。詳細については、「コンピューティンティングノードの初期化のエラーが表示されている」を参照してください。
-
OnNodeConfiguredまたはOnNodeStartヘッドノードスクリプトがcfn-init.logの最後で終了していないことが表示されているこれは、
OnNodeConfiguredまたはOnNodeStartで、カスタムスクリプトの実行に時間がかかり、タイムアウトエラーが発生したことを示しています。カスタムスクリプトに、実行に長い時間がかかる問題がないか確認します。カスタムスクリプトの実行に長い時間が必要な場合は、次の例に示されているようにクラスター設定ファイルにDevSettingsセクションを追加してタイムアウト制限を変更することを考慮してください。DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds -
ログが見つからない、またはヘッドノードが正常に作成されない
ヘッドノードが正常に作成されず、ログが見つからない可能性があります。CloudFormation コンソールでクラスタースタックの詳細を表示して、失敗に関するその他の詳細を確認します。
-
failureCode は HeadNodeBootstrapFailure で、failureReason はヘッドノードのブートストラップに失敗した。
-
失敗した原因
即時に原因を判断できないため、追加の調査が必要です。
-
解決方法
/var/log/cfn-init.logと/var/log/chef-client.logのファイルを確認します。
failureCode が ResourceCreationFailure
-
失敗した原因
クラスター作成プロセス中に、一部のリソースの作成に失敗しました。さまざまな理由で失敗が発生します。例えば、リソース作成の失敗は、容量の問題や IAM ポリシーが誤って設定されていることにより発生することがあります。
-
解決方法
CloudFormation コンソールでクラスタースタックを表示して、リソース作成の失敗に関するその他の詳細を確認します。
failureCode が ClusterCreationFailure
-
失敗した原因
即時に原因を判断できないため、追加の調査が必要です。
-
解決方法
CloudFormation コンソールでクラスタースタックを表示し、
HeadNodeWaitConditionのStatus Reasonを確認して、失敗に関するその他の詳細を見つけます。/var/log/cfn-init.logと/var/log/chef-client.logのファイルを確認します。
CloudFormation スタックの WaitCondition timed out... が表示されている
詳細については、「failureCode は HeadNodeBootstrapFailure で、failureReason クラスター作成がタイムアウトした。」を参照してください。
CloudFormation スタックの Resource creation cancelled が表示されている
詳細については、「failureCode が ResourceCreationFailure」を参照してください。
CloudFormation スタック内の表示Failed to run cfn-init...またはその他のエラー
失敗に関するその他の詳細について、/var/log/cfn-init.log と /var/log/chef-client.log を確認します。
INFO: Waiting for static fleet capacity provisioning の最後に chef-client.log が表示されている
これは、静的ノードの電源が入るのを待機しているときにクラスターの作成がタイムアウトになることと関係しています。詳細については、「コンピューティンティングノードの初期化のエラーが表示されている」を参照してください。
Failed to run preinstall or postinstall in cfn-init.log が表示されている
クラスター設定 の HeadNode セクションに OnNodeConfigured または OnNodeStart スクリプトがあります。このスクリプトが正しく動作していません。カスタムスクリプトのエラーの詳細について、/var/log/cfn-init.log ファイルを確認します。
CloudFormation スタックの This AMI was created with xxx, but is trying to be used with xxx... が表示されている
詳細については、「failureCode が AmiVersionMismatch」を参照してください。
CloudFormation スタックの This AMI was not baked by AWS ParallelCluster... が表示されている
詳細については、「failureCode が InvalidAmi」を参照してください。
pcluster create-cluster コマンドがローカルで実行できないことが表示されている
失敗の詳細について、ローカルファイルシステムの ~/.parallelcluster/pcluster-cli.log を確認します。
追加サポート
クラスターデプロイの問題のトラブルシューティング のトラブルシューティングガイダンスに従ってください。
シナリオが GitHub の にある GitHub の既知の問題