サーバーレスエンドポイントを呼び出す

サーバーレスエンドポイントを使用して推論を実行するには、エンドポイントに HTTP リクエストを送信する必要があります。InvokeEndpoint API またはを使用して AWS CLI、エンドポイントを呼び出すPOSTリクエストを行うことができます。サーバーレス呼び出しのリクエストとレスポンスペイロードの最大サイズは 4 MB です。サーバーレスエンドポイントの場合:

モデルのダウンロードと /ping へのサーバーの応答は、3 分以内に行われる必要があります。
コンテナが /invocations への推論リクエストに応答するためのタイムアウトは 1 分です。

エンドポイントを呼び出すには

次の例では、AWS SDK for Python (Boto3) を使用して InvokeEndpoint API を呼び出します。このガイドの他の API コールとは異なり、InvokeEndpoint の場合は、SageMaker ランタイムをクライアントとして使用する必要があります。次の値を指定します。

endpoint_name では、呼び出すインサービスサーバーレスエンドポイントの名前を使用します。
content_type では、リクエストボディの入力データの MIME タイプを指定します (application/json など)。
payload では、推論のリクエストペイロードを使用します。ペイロードはバイト単位またはファイルのようなオブジェクトでなければなりません。


runtime = boto3.client("sagemaker-runtime")

endpoint_name = "<your-endpoint-name>"
content_type = "<request-mime-type>"
payload = <your-request-body>

response = runtime.invoke_endpoint(
    EndpointName=endpoint_name,
    ContentType=content_type,
    Body=payload
)

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

エンドポイントを作成する

サーバーレスエンドポイントを更新する