Aufrufen Ihres importierten Modells
Der Modellimportjob kann mehrere Minuten dauern, nachdem Sie die CreateModelImportJob-Anfrage gesendet haben. Sie können den aktuellen Status Ihres Importauftrags überprüfen, indem Sie die GetModelImportJob-Operation aufrufen und das Feld Status in der Antwort überprüfen. Der Auftrag ist abgeschlossen, wenn der Status für das Modell Abgeschlossen lautet.
Nachdem Ihr importiertes Modell in Amazon Bedrock verfügbar ist, können Sie das Modell mit On-Demand-Durchsatz verwenden, indem Sie InvokeModel- oder InvokeModelWithResponseStream-Anfragen senden, um Inferenzaufrufe an das Modell zu senden. Weitere Informationen finden Sie unter So senden Sie einen einzelnen Prompt mit InvokeModel.
Sie können die Operationen Converse oder ConverseStream aufrufen, um mit Ihrem importierten Modell im Nachrichtenformat zu interagieren. Weitere Informationen finden Sie unter Verwenden der Converse-API.
Anmerkung
Die Converse-API wird für die Modelle Qwen2.5, Qwen2-VL und Qwen2.5-VL nicht unterstützt.
Sie benötigen den Modell-ARN, um Inferenzaufrufe für Ihr neu importiertes Modell durchzuführen. Nach erfolgreichem Abschluss des Importauftrags und nachdem Ihr importiertes Modell aktiv ist, können Sie den Modell-ARN Ihres importierten Modells in der Konsole oder durch Senden einer ListImportedModels-Anfrage abrufen.
Um Ihr importiertes Modell aufzurufen sollten Sie sicherstellen, dass Sie dieselben Inferenzparameter verwenden, wie für das benutzerdefinierte Basismodell, das Sie importieren. Informationen zu den zu verwendenden Inferenzparametern für das Modell, dass Sie importieren, finden Sie unter Inferenzanforderungsparameter und Antwortfelder für Basismodelle. Wenn Sie Inferenzparameter verwenden die nicht mit den für das Modell erwähnten Inferenzparametern übereinstimmen, werden diese Parameter ignoriert.
Anmerkung
Wenn Sie multimodale Eingaben bereitstellen, müssen Sie die entsprechenden Platzhalter für multimodale Token in Ihrem Text-Prompt aufnehmen. Wenn Sie beispielsweise eine Bildeingabe an ein Qwen-VL-Modell senden, sollte der Prompt <|vision_start|><|image_pad|><|vision_end|> enthalten. Diese Notationen sind spezifisch für den Tokenisierer des Modells und können mithilfe der folgenden Chat-Vorlage angewendet werden.
from transformers import AutoProcessor, AutoTokenizer if vision_model: processor = AutoProcessor.from_pretrained(model) else: processor = AutoTokenizer.from_pretrained(model) # Create messages messages = [ { "role": "user", "content": [ { "type": "image", "image": "base64 encoded image", }, { "type": "text", "text": "Describe this image.", }, ], } ] # Apply chat template prompt = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) """ prompt = ''' <|im_start|>system\nYou are a helpful assistant.<|im_end|>\n <|im_start|>user\n<|vision_start|><|image_pad|><|vision_end|> Describe this image.<|im_end|>\n<|im_start|>assistant\n''' """ response = client.invoke_model( modelId=model_id, body=json.dumps({ 'prompt': prompt, 'temperature': temperature, 'max_gen_len': max_tokens, 'top_p': top_p, 'images': ["base64 encoded image"] }), accept='application/json', contentType='application/json' )
Wenn Sie Ihr importiertes Modell mit InvokeModel oder InvokeModelWithStream aufrufen, wird Ihre Anfrage innerhalb von 5 Minuten bedient; andernfalls erhalten Sie möglicherweise ModelNotReadyException. Um die ModelNotReadyException zu verstehen, folgen Sie den Schritten in diesem nächsten Abschnitt zur Behandlung von ModelNotReadyException.
Umgang mit ModelNotReadyException
Der benutzerdefinierte Modellimport für Amazon Bedrock optimiert die Hardwarenutzung, indem die Modelle entfernt werden, die nicht aktiv sind. Wenn Sie versuchen, ein Modell aufzurufen, das entfernt wurde, erhalten Sie eine ModelNotReadyException. Nachdem das Modell entfernt wurde und Sie das Modell zum ersten Mal aufrufen, beginnt der benutzerdefinierte Modellimport mit der Wiederherstellung des Modells. Die Wiederherstellungszeit hängt von der Größe der On-Demand-Flotte und der Modellgröße ab.
Wenn Ihre InvokeModel- oder InvokeModelWithStream-Anfrage ModelNotReadyException zurückgibt, folgen Sie den Schritten zur Ausnahmenbehandlung.
-
Konfigurieren von Wiederholungsversuchen
Standardmäßig wird Ihre Anforderung automatisch mit exponentiellem Backoff wiederholt. Sie können die maximale Anzahl an Wiederholungen konfigurieren.
Das folgende Codebeispiel zeigt, wie Sie die Wiederholungsversuche konfigurieren. Ersetzen Sie
${region-name},${model-arn}und10durch Ihre Region, Ihren Modell-ARN und die maximale Anzahl an Versuchen.import json import boto3 from botocore.config import Config REGION_NAME =${region-name}MODEL_ID= '${model-arn}' config = Config( retries={ 'total_max_attempts':10, //customizable 'mode': 'standard' } ) message = "Hello" session = boto3.session.Session() br_runtime = session.client(service_name = 'bedrock-runtime', region_name=REGION_NAME, config=config) try: invoke_response = br_runtime.invoke_model(modelId=MODEL_ID, body=json.dumps({'prompt': message}), accept="application/json", contentType="application/json") invoke_response["body"] = json.loads(invoke_response["body"].read().decode("utf-8")) print(json.dumps(invoke_response, indent=4)) except Exception as e: print(e) print(e.__repr__()) -
Überwachen Sie die Antwortcodes bei Wiederholungsversuchen
Bei jedem erneuten Versuch wird der Modellwiederherstellungsprozess gestartet. Die Wiederherstellungszeit hängt von der Verfügbarkeit der On-Demand-Flotte und der Modellgröße ab. Überwachen Sie die Antwortcodes, während der Wiederherstellungsprozess läuft.
Wenn die Wiederholungsversuche immer wieder fehlschlagen, fahren Sie mit den nächsten Schritten fort.
-
So stellen Sie sicher, dass das Modell erfolgreich importiert wurde
Sie können überprüfen, ob das Modell erfolgreich importiert wurde, indem Sie den Status Ihres Importauftrags in der Konsole überprüfen oder indem Sie den Vorgang GetModelImportJob aufrufen. Prüfen Sie das
Status-Feld in der Antwort. Der Importauftrag ist erfolgreich, wenn der Status für das Modell Abgeschlossen lautet. -
Wenden Sie sich an Support für weitere Untersuchungen
Öffnen Sie ein Ticket bei Support Weitere Informationen finden Sie unter Erstellen von Supportfällen.
Geben Sie relevante Details wie die Modell-ID und Zeitstempel im Support-Ticket ein.