推論パイプラインのトラブルシューティング

推論パイプラインの問題のトラブルシューティングを行うには、CloudWatch のログとエラーメッセージを使います。Amazon SageMaker AI の組み込みアルゴリズムを含むパイプラインでカスタム Docker イメージを使っている場合は、許可の問題も発生する可能性があります。必要な許可を付与するには、Amazon Elastic Container Registry (Amazon ECR) ポリシーを作成します。

トピック

推論パイプラインの Amazon ECR アクセス許可のトラブルシューティングを行う
CloudWatch のログを使って SageMaker AI 推論パイプラインのトラブルシューティングを行う
エラーメッセージを使用して推論パイプラインをトラブルシューティングする

推論パイプラインの Amazon ECR アクセス許可のトラブルシューティングを行う

SageMaker AI 組み込みアルゴリズムを含むパイプラインでカスタム Docker イメージを使う場合は、Amazon ECR ポリシーが必要です。このポリシーは、SageMaker AI にイメージをプルする許可を、Amazon ECR リポジトリが付与できるようにします。このポリシーには以下のアクセス許可が含まれています。

CloudWatch のログを使って SageMaker AI 推論パイプラインのトラブルシューティングを行う

SageMaker AI は、Amazon CloudWatch に推論パイプラインをデプロイするエンドポイントの、各コンテナのコンテナログを次のパスに発行します。


/aws/sagemaker/Endpoints/{EndpointName}/{Variant}/{InstanceId}/{ContainerHostname}

例えば、このエンドポイントのログは、次のロググループとストリームに発行されます。


EndpointName: MyInferencePipelinesEndpoint
Variant: MyInferencePipelinesVariant
InstanceId: i-0179208609ff7e488
ContainerHostname: MyContainerName1 and MyContainerName2


logGroup: /aws/sagemaker/Endpoints/MyInferencePipelinesEndpoint
logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName1
logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName2

ログストリームは、同じソースを共有する一連のログイベントです。CloudWatch に記録される個別のログソースは、個別にログストリーミングを構成します。ロググループは、保持、モニタリング、アクセス制御について同じ設定を共有するログストリームのグループです。

ロググループとストリームを表示するには

CloudWatch コンソールの https://console.aws.amazon.com/cloudwatch/ を開いてください。
ナビゲーションページで [Logs] (ログ) を選択します。
[ロググループ] で、MyInferencePipelinesEndpoint をフィルタリングします。
ログストリームを表示するには、CloudWatch の [Log Groups] (ロググループ) ページで [MyInferencePipelinesEndpoint] を選択し、[Search Log Group] (ロググループの検索) を選択します。

SageMaker AI が発行するログのリストについては、「推論パイプラインのログとメトリクス」を参照してください。

エラーメッセージを使用して推論パイプラインをトラブルシューティングする

推論パイプラインのエラーメッセージは、失敗したコンテナを示します。

SageMaker AI によるエンドポイントの呼び出し中にエラーが発生した場合、サービスは、失敗したコンテナを示す ModelError (エラーコード 424) を返します。リクエストペイロード (前のコンテナからのレスポンス) が 5 MB の制限を超えると、SageMaker AI は次のような詳細なエラーメッセージを返します。

MyContainerName1 からステータスコード 200 のレスポンスを受信しました。ただし、MyContainerName1 から MyContainerName2 へのリクエストペイロードは 6,000,000 バイトで、これは最大制限の 5 MB を超えています。

エンドポイントの作成中にコンテナが ping ヘルスチェックに失敗した場合は、SageMaker AI は ClientError を返し、最後のヘルスチェックで ping チェックに失敗したすべてのコンテナを示します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ログおよびメトリクス

エンドポイントとリソースを削除する