As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Estratégias de execução de modelos para cargas de trabalho de IA
No centro de qualquer arquitetura de IA está a camada de execução do modelo, o componente que realiza inferências, impulsiona previsões ou gera conteúdo. AWS oferece dois caminhos poderosos e prontos para uso sem servidor para executar cargas de trabalho de IA:
-
O Amazon Bedrock fornece acesso aos modelos básicos (FMs) para casos de uso generativos de IA.
-
O Amazon SageMaker Serverless Inference permite a implantação escalável de modelos personalizados treinados para cargas de trabalho tradicionais de aprendizado de máquina (ML).
Ao entender quando e como usar cada um AWS service (Serviço da AWS), as empresas podem otimizar as necessidades comerciais e a eficiência operacional.
Amazon Bedrock: modelos de fundação como um serviço
O Amazon Bedrock é um serviço totalmente gerenciado que fornece acesso sem servidor aos principais fornecedores FMs de IA, como Anthropic (Claude), Meta (Llama),Mistral, Cohere e Amazon Titan Amazon Nova. Você pode interagir com esses modelos usando chamadas de API simples, sem precisar provisionar infraestrutura GPUs, gerenciar ou ajustar modelos.
Os principais recursos do Amazon Bedrock incluem o seguinte:
-
Geração de texto — resumo, reescrita, criação de conteúdo e perguntas e respostas.
-
Geração de código — linguagem natural para codificar.
-
Classificação e extração — Rotulagem, análise e marcação semântica.
-
Fluxos de trabalho do RAG — Integre-se às bases de conhecimento para obter respostas fundamentadas.
-
Agentes — Permita a orquestração autônoma e o uso de ferramentas.
-
Inteligência multimodal — Por meio do Amazon Nova, entenda e gere em texto, imagem e vídeo.
-
Ajuste fino e suporte à destilação — Por meio do Amazon Nova Premier, treine modelos específicos para tarefas ou crie modelos compactos para estudantes.
-
Desempenho e custo diferenciados — Selecione entre os modelos Amazon Nova Micro, Nova Lite, Nova Pro e Nova Premier para equilibrar latência, precisão e preço.
Os benefícios operacionais do Amazon Bedrock incluem o seguinte:
-
Gerenciamento de modelos — Sem necessidade de hospedagem ou controle de versão de modelos.
-
Manipulação segura de dados — ambiente de inquilino isolado e sem treinamento em dados do usuário.
-
Faturamento baseado em tokens — fornece modelagem de custos previsível.
-
Unificação de API multimodal — manipula imagens input/output , vídeos e textos por meio da mesma interface do Amazon Bedrock.
-
Opções de baixa latência — disponíveis com o Amazon Nova Micro e o Nova Lite, ideais para aplicativos de IA generativos de ponta e voltados para o usuário.
-
Compatibilidade básica empresarial — Todos os modelos Amazon Nova são compatíveis com as arquiteturas Amazon Bedrock Knowledge Bases e Retrieval Augmented Generation (RAG).
O Amazon Bedrock se integra a Serviços da AWS outros recursos das seguintes formas:
-
Acionado a partir do Lambda, Step Functions ou API Gateway
-
Integrado ao Amazon Bedrock Agents para orquestração orientada por objetivos
-
Funciona perfeitamente com as bases de conhecimento Amazon Bedrock e os pipelines RAG
Casos de uso ideais para o Amazon Bedrock
O Amazon Bedrock é adequado para uma variedade de cenários, como os seguintes:
-
Tarefas generativas de IA - Crie conteúdo e documentação de marketing e fortaleça os chatbots.
-
Assistentes de conversação - Crie bots de suporte e copilotos internos.
-
Recuperação de conhecimento — Use para tarefas de resumo e pesquisa semântica.
-
Planejamento dinâmico - Sistemas de decisão baseados em agentes de potência.
-
Geração multimodal — Use o Amazon Nova Canvas para gerar imagens e use o Amazon Nova Reel para produzir vídeos a partir de instruções e contexto estruturado.
-
Assistentes corporativos — Use o Amazon Nova Pro para habilitar ferramentas de tomada de decisão orientadas por metas baseadas em dados proprietários.
-
Feedback da experiência do usuário em tempo real - Analise e responda às ações do cliente com menos de 100 ms de latência usando o Amazon Nova Micro.
Amazon SageMaker Serverless Inference: hospedagem de modelos personalizados
O Amazon SageMaker Serverless Inference foi projetado para desenvolvedores e cientistas de dados que treinaram seus próprios modelos (por exemplo,, XGBoost PyTorchScikit-learn, e). TensorFlow Ao usar a inferência SageMaker sem servidor, eles podem implantar seus modelos em um ambiente escalável e sem servidor.
Ao contrário do Amazon Bedrock, o SageMaker Serverless Inference oferece controle sobre a arquitetura do modelo, os dados de treinamento e a lógica.
Os principais recursos da inferência SageMaker sem servidor incluem o seguinte:
-
Hospeda modelos tradicionais de ML, como classificação, regressão, processamento de linguagem natural (NLP) e previsão
-
Suporta endpoints de vários modelos
-
Suporta escalabilidade automática para que a computação seja provisionada sob demanda e desligada quando ociosa
-
Executa inferência em imagens de contêiner personalizadas ou estruturas de ML pré-criadas
Os benefícios operacionais da inferência SageMaker sem servidor incluem o seguinte:
-
Pay-per-inference modelo com zero custos de inatividade
-
Endpoints totalmente gerenciados e sem configuração de servidor
-
Integra-se com canais de treinamento e notebooks
SageMaker A inferência sem servidor se integra a outros recursos das Serviços da AWS seguintes maneiras:
-
Invocado usando AWS Lambda Step Functions ou chamadas de SDK e API
-
Funciona com SageMaker pipelines para operações end-to-end de aprendizado de máquina () MLOps
-
Registros e métricas integrados com a Amazon CloudWatch
Casos de uso ideais para SageMaker inferência sem servidor
SageMaker A inferência sem servidor é uma boa opção para vários aplicativos de aprendizado de máquina:
-
Análise preditiva - Use para modelos de previsão de vendas e previsão de rotatividade.
-
Classificação de texto - suporta tarefas como detecção de spam e análise de sentimentos.
-
Classificação de imagens - Permite o reconhecimento óptico de caracteres (OCR) de documentos e aplicativos de imagens médicas.
-
Processamento de linguagem natural (NLP) personalizado - Lida com tarefas de reconhecimento de entidades e marcação de documentos.
Escolhendo entre o Amazon Bedrock e a inferência SageMaker sem servidor
Tanto o Amazon Bedrock quanto o SageMaker Serverless Inference oferecem caminhos sem servidor para uma execução de IA escalável e pronta para produção. Juntos, eles formam a principal camada de execução de arquiteturas de IA modernas, orientadas por eventos e sem servidor. AWS A tabela a seguir compara esses serviços nas principais dimensões.
Dimensão |
Amazon Bedrock |
SageMaker Inferência sem servidor |
|---|---|---|
Tipo do modelo |
Modelos de fundação (LLMs) |
Modelos de ML com treinamento personalizado |
Esforço de configuração |
Mínimo (sem treinamento ou hospedagem) |
Requer treinamento e embalagem de modelos |
Caso de uso |
Generativo, conversacional e semântico |
Dados preditivos, numéricos e estruturados |
Escalabilidade |
Totalmente sem servidor e escalonado automaticamente |
Totalmente sem servidor e escalonado automaticamente |
Modelo de custo |
Pague por token |
Pagamento por inferência |
Integração |
API Gateway, Lambda, Amazon Bedrock Agents e RAG |
Lambda, Step Functions e pipelines CI/CD |
Ajuste necessário |
Nenhum (tiro zero ou poucos disparos) |
Controle total (hiperparâmetros e reciclagem) |
A escolha do serviço certo depende da natureza da sua carga de trabalho de IA:
-
Use o Amazon Bedrock quando precisar de flexibilidade semântica, fluxos de trabalho orientados por metas e iteração rápida com modelos básicos.
-
Use a inferência SageMaker sem servidor quando tiver modelos proprietários, entradas estruturadas ou precisar de controle total sobre o treinamento e a implantação.
-
Use SageMaker JumpStart para escolher entre centenas de algoritmos integrados com modelos pré-treinados de hubs de modelos, incluindo TensorFlow HubHugging Face, PyTorch Hub e. MxNet GluonCV