Amazon Bedrock: modelos de fundação como um serviço Amazon SageMaker Serverless Inference: hospedagem de modelos personalizados Escolhendo entre o Amazon Bedrock e a inferência SageMaker sem servidor

Estratégias de execução de modelos para cargas de trabalho de IA

No centro de qualquer arquitetura de IA está a camada de execução do modelo, o componente que realiza inferências, impulsiona previsões ou gera conteúdo. AWS oferece dois caminhos poderosos e prontos para uso sem servidor para executar cargas de trabalho de IA:

O Amazon Bedrock fornece acesso aos modelos básicos (FMs) para casos de uso generativos de IA.
O Amazon SageMaker Serverless Inference permite a implantação escalável de modelos personalizados treinados para cargas de trabalho tradicionais de aprendizado de máquina (ML).

Ao entender quando e como usar cada um AWS service (Serviço da AWS), as empresas podem otimizar as necessidades comerciais e a eficiência operacional.

Amazon Bedrock: modelos de fundação como um serviço

O Amazon Bedrock é um serviço totalmente gerenciado que fornece acesso sem servidor aos principais fornecedores FMs de IA, como Anthropic (Claude), Meta (Llama),Mistral, Cohere e Amazon Titan Amazon Nova. Você pode interagir com esses modelos usando chamadas de API simples, sem precisar provisionar infraestrutura GPUs, gerenciar ou ajustar modelos.

Os principais recursos do Amazon Bedrock incluem o seguinte:

Geração de texto — resumo, reescrita, criação de conteúdo e perguntas e respostas.
Geração de código — linguagem natural para codificar.
Classificação e extração — Rotulagem, análise e marcação semântica.
Fluxos de trabalho do RAG — Integre-se às bases de conhecimento para obter respostas fundamentadas.
Agentes — Permita a orquestração autônoma e o uso de ferramentas.
Inteligência multimodal — Por meio do Amazon Nova, entenda e gere em texto, imagem e vídeo.
Ajuste fino e suporte à destilação — Por meio do Amazon Nova Premier, treine modelos específicos para tarefas ou crie modelos compactos para estudantes.
Desempenho e custo diferenciados — Selecione entre os modelos Amazon Nova Micro, Nova Lite, Nova Pro e Nova Premier para equilibrar latência, precisão e preço.

Os benefícios operacionais do Amazon Bedrock incluem o seguinte:

Gerenciamento de modelos — Sem necessidade de hospedagem ou controle de versão de modelos.
Manipulação segura de dados — ambiente de inquilino isolado e sem treinamento em dados do usuário.
Faturamento baseado em tokens — fornece modelagem de custos previsível.
Unificação de API multimodal — manipula imagens input/output , vídeos e textos por meio da mesma interface do Amazon Bedrock.
Opções de baixa latência — disponíveis com o Amazon Nova Micro e o Nova Lite, ideais para aplicativos de IA generativos de ponta e voltados para o usuário.
Compatibilidade básica empresarial — Todos os modelos Amazon Nova são compatíveis com as arquiteturas Amazon Bedrock Knowledge Bases e Retrieval Augmented Generation (RAG).

O Amazon Bedrock se integra a Serviços da AWS outros recursos das seguintes formas:

Acionado a partir do Lambda, Step Functions ou API Gateway
Integrado ao Amazon Bedrock Agents para orquestração orientada por objetivos
Funciona perfeitamente com as bases de conhecimento Amazon Bedrock e os pipelines RAG

Casos de uso ideais para o Amazon Bedrock

O Amazon Bedrock é adequado para uma variedade de cenários, como os seguintes:

Tarefas generativas de IA - Crie conteúdo e documentação de marketing e fortaleça os chatbots.
Assistentes de conversação - Crie bots de suporte e copilotos internos.
Recuperação de conhecimento — Use para tarefas de resumo e pesquisa semântica.
Planejamento dinâmico - Sistemas de decisão baseados em agentes de potência.
Geração multimodal — Use o Amazon Nova Canvas para gerar imagens e use o Amazon Nova Reel para produzir vídeos a partir de instruções e contexto estruturado.
Assistentes corporativos — Use o Amazon Nova Pro para habilitar ferramentas de tomada de decisão orientadas por metas baseadas em dados proprietários.
Feedback da experiência do usuário em tempo real - Analise e responda às ações do cliente com menos de 100 ms de latência usando o Amazon Nova Micro.

Amazon SageMaker Serverless Inference: hospedagem de modelos personalizados

O Amazon SageMaker Serverless Inference foi projetado para desenvolvedores e cientistas de dados que treinaram seus próprios modelos (por exemplo,, XGBoost PyTorchScikit-learn, e). TensorFlow Ao usar a inferência SageMaker sem servidor, eles podem implantar seus modelos em um ambiente escalável e sem servidor.

Ao contrário do Amazon Bedrock, o SageMaker Serverless Inference oferece controle sobre a arquitetura do modelo, os dados de treinamento e a lógica.

Os principais recursos da inferência SageMaker sem servidor incluem o seguinte:

Hospeda modelos tradicionais de ML, como classificação, regressão, processamento de linguagem natural (NLP) e previsão
Suporta endpoints de vários modelos
Suporta escalabilidade automática para que a computação seja provisionada sob demanda e desligada quando ociosa
Executa inferência em imagens de contêiner personalizadas ou estruturas de ML pré-criadas

Os benefícios operacionais da inferência SageMaker sem servidor incluem o seguinte:

Pay-per-inference modelo com zero custos de inatividade
Endpoints totalmente gerenciados e sem configuração de servidor
Integra-se com canais de treinamento e notebooks

SageMaker A inferência sem servidor se integra a outros recursos das Serviços da AWS seguintes maneiras:

Invocado usando AWS Lambda Step Functions ou chamadas de SDK e API
Funciona com SageMaker pipelines para operações end-to-end de aprendizado de máquina () MLOps
Registros e métricas integrados com a Amazon CloudWatch

Casos de uso ideais para SageMaker inferência sem servidor

SageMaker A inferência sem servidor é uma boa opção para vários aplicativos de aprendizado de máquina:

Análise preditiva - Use para modelos de previsão de vendas e previsão de rotatividade.
Classificação de texto - suporta tarefas como detecção de spam e análise de sentimentos.
Classificação de imagens - Permite o reconhecimento óptico de caracteres (OCR) de documentos e aplicativos de imagens médicas.
Processamento de linguagem natural (NLP) personalizado - Lida com tarefas de reconhecimento de entidades e marcação de documentos.

Escolhendo entre o Amazon Bedrock e a inferência SageMaker sem servidor

Tanto o Amazon Bedrock quanto o SageMaker Serverless Inference oferecem caminhos sem servidor para uma execução de IA escalável e pronta para produção. Juntos, eles formam a principal camada de execução de arquiteturas de IA modernas, orientadas por eventos e sem servidor. AWS A tabela a seguir compara esses serviços nas principais dimensões.

Dimensão	Amazon Bedrock	SageMaker Inferência sem servidor
Tipo do modelo	Modelos de fundação (LLMs)	Modelos de ML com treinamento personalizado
Esforço de configuração	Mínimo (sem treinamento ou hospedagem)	Requer treinamento e embalagem de modelos
Caso de uso	Generativo, conversacional e semântico	Dados preditivos, numéricos e estruturados
Escalabilidade	Totalmente sem servidor e escalonado automaticamente	Totalmente sem servidor e escalonado automaticamente
Modelo de custo	Pague por token	Pagamento por inferência
Integração	API Gateway, Lambda, Amazon Bedrock Agents e RAG	Lambda, Step Functions e pipelines CI/CD
Ajuste necessário	Nenhum (tiro zero ou poucos disparos)	Controle total (hiperparâmetros e reciclagem)

A escolha do serviço certo depende da natureza da sua carga de trabalho de IA:

Use o Amazon Bedrock quando precisar de flexibilidade semântica, fluxos de trabalho orientados por metas e iteração rápida com modelos básicos.
Use a inferência SageMaker sem servidor quando tiver modelos proprietários, entradas estruturadas ou precisar de controle total sobre o treinamento e a implantação.
Use SageMaker JumpStart para escolher entre centenas de algoritmos integrados com modelos pré-treinados de hubs de modelos, incluindo TensorFlow HubHugging Face, PyTorch Hub e. MxNet GluonCV

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Modelos de orquestração: do baseado em regras ao nativo de IA

Geração aumentada de aterramento e recuperação