As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Invocar o modelo importado
A tarefa de importação do modelo pode levar vários minutos para importar seu modelo após o envio da CreateModelImportJobsolicitação. Você pode verificar o status do seu trabalho de importação no console ou chamando a GetModelImportJoboperação e verificando o Status campo na resposta. O trabalho de importação será concluído se o Status do modelo for Concluído.
Depois que seu modelo importado estiver disponível no Amazon Bedrock, você poderá usar o modelo com taxa de transferência sob demanda enviando InvokeModelou InvokeModelWithResponseStreamsolicitando chamadas de inferência para o modelo. Para obter mais informações, consulte Envie uma única solicitação com InvokeModel.
Para interagir com seu modelo importado usando o formato de mensagens, você pode chamar o Converse ou ConverseStreamas operações. Para obter mais informações, consulte Usar a API Converse.
nota
A API Converse não é compatível com Qwen2.5, Qwen2-vl, Qwen2.5-vl e modelos. GPT-OSS
Suporte aprimorado de API: vários formatos de API
A partir de 17 de novembro de 2025, o Amazon Bedrock Custom Model Import oferece suporte a formatos abrangentes de API compatíveis com OpenAI, oferecendo flexibilidade na forma como você integra e implementa seus modelos personalizados. Todos os modelos importados após 11 de novembro de 2025 se beneficiarão automaticamente desses recursos aprimorados sem a necessidade de configuração adicional.
O Custom Model Import agora oferece suporte a três formatos de API:
BedrockCompletion (Texto) - Compatível com os fluxos de trabalho atuais do Bedrock
Open AICompletion (Text) - Compatibilidade com o OpenAI Completions Schema
AIChatCompletação aberta (texto e imagens) - Compatibilidade total com esquemas de conversação
Esses recursos aprimorados incluem saídas estruturadas para aplicar esquemas e padrões JSON, suporte aprimorado à visão com processamento de várias imagens, probabilidades de registro para insights de confiança do modelo e recursos de chamada de ferramentas para modelos. GPT-OSS
Para obter a documentação detalhada de referência da API, consulte a documentação oficial da OpenAI:
Conclusão: API de conclusão do OpenAI
ChatCompletion: API de bate-papo OpenAI
Exemplos de formato de API
Os exemplos a seguir demonstram como usar cada um dos quatro formatos de API compatíveis com seus modelos importados.
O ARN do modelo é necessário para fazer chamadas de inferência ao modelo recém-importado. Após a conclusão bem-sucedida do trabalho de importação e depois que o modelo importado estiver ativo, você poderá obter o ARN do modelo importado no console ou enviando uma ListImportedModelssolicitação.
Quando você invoca seu modelo importado usando InvokeModel ouInvokeModelWithStream, a solicitação é atendida em 5 minutos ou você pode receber ModelNotReadyException. Para entender o ModelNotReadyException, siga as etapas na próxima seção para lidar com ModelNotreadyException.
Perguntas frequentes
P: Qual formato de API devo usar?
R: Para máxima compatibilidade com vários SDKs, recomendamos o uso dos formatos Open AICompletion ou Open AIChat Completion, pois eles fornecem esquemas compatíveis com OpenAI que são amplamente suportados em diferentes ferramentas e bibliotecas.
P: O GPT-OSS Amazon Bedrock Custom Model Import oferece suporte à API Converse?
R: Não. GPT-OSSos modelos de importação de modelos personalizados baseados não oferecem suporte à API ou ConverseStream API Converse. Você deve usar a InvokeModelAPI com esquemas compatíveis com OpenAI ao trabalhar com GPT-OSS modelos personalizados baseados.
P: Quais modelos oferecem suporte à chamada de ferramentas?
R: modelos personalizados GPT-OSS baseados em suporte aos recursos de chamada de ferramentas. A chamada de ferramentas permite a chamada de funções para fluxos de trabalho complexos.
P: E quanto aos modelos importados antes de 11 de novembro de 2025?
R: Os modelos importados antes de 11 de novembro de 2025 continuam funcionando como estão com seus formatos e recursos de API existentes.
P: E quanto generation_config.json aos modelos baseados em OpenAI?
R: É fundamental que você inclua o generation_config.json arquivo correto ao importar modelos baseados em OpenAI, como. GPT-OSS Você deve usar o arquivo de configuração atualizado (atualizado em 13 de agosto de 2024) disponível em https://huggingface. co/openai/gpt-oss-20b/blob/main/generation_config.json[200002, 199999, 200012]), enquanto as versões mais antigas incluíam apenas dois tokens ([200002, 199999]). Usar um generation_config.json arquivo desatualizado causará erros de tempo de execução durante a invocação do modelo. Esse arquivo é essencial para o comportamento adequado do modelo e deve ser incluído nas importações de modelos baseados em OpenAI.
Manuseio ModelNotReadyException
A Importação de modelos personalizados do Amazon Bedrock otimiza a utilização de hardware removendo os modelos que não estão ativos. Se você tentar invocar um modelo que foi removido, você receberá umaModelNotReadyException. Depois que o modelo é removido e você o invoca pela primeira vez, o recurso Importação de modelos personalizados começa a restaurar o modelo. O tempo de restauração depende do tamanho da frota sob demanda e do tamanho do modelo.
Se sua solicitação InvokeModel ou InvokeModelWithStream exibir ModelNotReadyException, siga as etapas para lidar com a exceção.
-
Configurar novas tentativas
Por padrão, a solicitação é repetida automaticamente com um recuo exponencial. Configure o número máximo de repetições.
O exemplo de código a seguir mostra como configurar a repetição. Substitua
${region-name}${model-arn}, e10por sua região, ARN do modelo e número máximo de tentativas.import json import boto3 from botocore.config import Config REGION_NAME =${region-name}MODEL_ID= '${model-arn}' config = Config( retries={ 'total_max_attempts':10, //customizable 'mode': 'standard' } ) message = "Hello" session = boto3.session.Session() br_runtime = session.client(service_name = 'bedrock-runtime', region_name=REGION_NAME, config=config) try: invoke_response = br_runtime.invoke_model(modelId=MODEL_ID, body=json.dumps({'prompt': message}), accept="application/json", contentType="application/json") invoke_response["body"] = json.loads(invoke_response["body"].read().decode("utf-8")) print(json.dumps(invoke_response, indent=4)) except Exception as e: print(e) print(e.__repr__()) -
Monitorar códigos de resposta durante novas tentativas
Cada nova tentativa inicia o processo de restauração do modelo. O tempo de restauração depende da disponibilidade da frota sob demanda e do tamanho do modelo. Monitore os códigos de resposta enquanto o processo de restauração está em andamento.
Se as novas tentativas falharem de forma consistente, prossiga para as próximas etapas.
-
Verificar se o modelo foi importado com sucesso
Você pode verificar se o modelo foi importado com sucesso verificando o status do seu trabalho de importação no console ou chamando a GetModelImportJoboperação. Verifique o campo
Statusna resposta. Se o Status do modelo for Concluído, isso significa que o trabalho de importação foi bem-sucedido. -
Entre em contato Suporte para uma investigação mais aprofundada
Abra um ticket com Suporte Para obter mais informações, consulte Criação de casos de suporte.
Inclua detalhes relevantes, como ID do modelo e data e hora, no tíquete de suporte.