Estratégias de execução de modelos para cargas de trabalho de IA - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Estratégias de execução de modelos para cargas de trabalho de IA

No centro de qualquer arquitetura de IA está a camada de execução do modelo, o componente que realiza inferências, impulsiona previsões ou gera conteúdo. AWS oferece dois caminhos poderosos e prontos para uso sem servidor para executar cargas de trabalho de IA:

Ao entender quando e como usar cada um AWS service (Serviço da AWS), as empresas podem otimizar as necessidades comerciais e a eficiência operacional.

Amazon Bedrock: modelos de fundação como um serviço

O Amazon Bedrock é um serviço totalmente gerenciado que fornece acesso sem servidor aos principais fornecedores FMs de IA, como Anthropic (Claude), Meta (Llama),Mistral, Cohere e Amazon Titan Amazon Nova. Você pode interagir com esses modelos usando chamadas de API simples, sem precisar provisionar infraestrutura GPUs, gerenciar ou ajustar modelos.

Os principais recursos do Amazon Bedrock incluem o seguinte:

  • Geração de texto — resumo, reescrita, criação de conteúdo e perguntas e respostas.

  • Geração de código — linguagem natural para codificar.

  • Classificação e extração — Rotulagem, análise e marcação semântica.

  • Fluxos de trabalho do RAG — Integre-se às bases de conhecimento para obter respostas fundamentadas.

  • Agentes — Permita a orquestração autônoma e o uso de ferramentas.

  • Inteligência multimodal — Por meio do Amazon Nova, entenda e gere em texto, imagem e vídeo.

  • Ajuste fino e suporte à destilação — Por meio do Amazon Nova Premier, treine modelos específicos para tarefas ou crie modelos compactos para estudantes.

  • Desempenho e custo diferenciados — Selecione entre os modelos Amazon Nova Micro, Nova Lite, Nova Pro e Nova Premier para equilibrar latência, precisão e preço.

Os benefícios operacionais do Amazon Bedrock incluem o seguinte:

  • Gerenciamento de modelos — Sem necessidade de hospedagem ou controle de versão de modelos.

  • Manipulação segura de dados — ambiente de inquilino isolado e sem treinamento em dados do usuário.

  • Faturamento baseado em tokens — fornece modelagem de custos previsível.

  • Unificação de API multimodal — manipula imagens input/output , vídeos e textos por meio da mesma interface do Amazon Bedrock.

  • Opções de baixa latência — disponíveis com o Amazon Nova Micro e o Nova Lite, ideais para aplicativos de IA generativos de ponta e voltados para o usuário.

  • Compatibilidade básica empresarial — Todos os modelos Amazon Nova são compatíveis com as arquiteturas Amazon Bedrock Knowledge Bases e Retrieval Augmented Generation (RAG).

O Amazon Bedrock se integra a Serviços da AWS outros recursos das seguintes formas:

  • Acionado a partir do Lambda, Step Functions ou API Gateway

  • Integrado ao Amazon Bedrock Agents para orquestração orientada por objetivos

  • Funciona perfeitamente com as bases de conhecimento Amazon Bedrock e os pipelines RAG

Casos de uso ideais para o Amazon Bedrock

O Amazon Bedrock é adequado para uma variedade de cenários, como os seguintes:

  • Tarefas generativas de IA - Crie conteúdo e documentação de marketing e fortaleça os chatbots.

  • Assistentes de conversação - Crie bots de suporte e copilotos internos.

  • Recuperação de conhecimento — Use para tarefas de resumo e pesquisa semântica.

  • Planejamento dinâmico - Sistemas de decisão baseados em agentes de potência.

  • Geração multimodal — Use o Amazon Nova Canvas para gerar imagens e use o Amazon Nova Reel para produzir vídeos a partir de instruções e contexto estruturado.

  • Assistentes corporativos — Use o Amazon Nova Pro para habilitar ferramentas de tomada de decisão orientadas por metas baseadas em dados proprietários.

  • Feedback da experiência do usuário em tempo real - Analise e responda às ações do cliente com menos de 100 ms de latência usando o Amazon Nova Micro.

Amazon SageMaker Serverless Inference: hospedagem de modelos personalizados

O Amazon SageMaker Serverless Inference foi projetado para desenvolvedores e cientistas de dados que treinaram seus próprios modelos (por exemplo,, XGBoost PyTorchScikit-learn, e). TensorFlow Ao usar a inferência SageMaker sem servidor, eles podem implantar seus modelos em um ambiente escalável e sem servidor.

Ao contrário do Amazon Bedrock, o SageMaker Serverless Inference oferece controle sobre a arquitetura do modelo, os dados de treinamento e a lógica.

Os principais recursos da inferência SageMaker sem servidor incluem o seguinte:

  • Hospeda modelos tradicionais de ML, como classificação, regressão, processamento de linguagem natural (NLP) e previsão

  • Suporta endpoints de vários modelos

  • Suporta escalabilidade automática para que a computação seja provisionada sob demanda e desligada quando ociosa

  • Executa inferência em imagens de contêiner personalizadas ou estruturas de ML pré-criadas

Os benefícios operacionais da inferência SageMaker sem servidor incluem o seguinte:

  • Pay-per-inference modelo com zero custos de inatividade

  • Endpoints totalmente gerenciados e sem configuração de servidor

  • Integra-se com canais de treinamento e notebooks

SageMaker A inferência sem servidor se integra a outros recursos das Serviços da AWS seguintes maneiras:

  • Invocado usando AWS Lambda Step Functions ou chamadas de SDK e API

  • Funciona com SageMaker pipelines para operações end-to-end de aprendizado de máquina () MLOps

  • Registros e métricas integrados com a Amazon CloudWatch

Casos de uso ideais para SageMaker inferência sem servidor

SageMaker A inferência sem servidor é uma boa opção para vários aplicativos de aprendizado de máquina:

  • Análise preditiva - Use para modelos de previsão de vendas e previsão de rotatividade.

  • Classificação de texto - suporta tarefas como detecção de spam e análise de sentimentos.

  • Classificação de imagens - Permite o reconhecimento óptico de caracteres (OCR) de documentos e aplicativos de imagens médicas.

  • Processamento de linguagem natural (NLP) personalizado - Lida com tarefas de reconhecimento de entidades e marcação de documentos.

Escolhendo entre o Amazon Bedrock e a inferência SageMaker sem servidor

Tanto o Amazon Bedrock quanto o SageMaker Serverless Inference oferecem caminhos sem servidor para uma execução de IA escalável e pronta para produção. Juntos, eles formam a principal camada de execução de arquiteturas de IA modernas, orientadas por eventos e sem servidor. AWS A tabela a seguir compara esses serviços nas principais dimensões.

Dimensão

Amazon Bedrock

SageMaker Inferência sem servidor

Tipo do modelo

Modelos de fundação (LLMs)

Modelos de ML com treinamento personalizado

Esforço de configuração

Mínimo (sem treinamento ou hospedagem)

Requer treinamento e embalagem de modelos

Caso de uso

Generativo, conversacional e semântico

Dados preditivos, numéricos e estruturados

Escalabilidade

Totalmente sem servidor e escalonado automaticamente

Totalmente sem servidor e escalonado automaticamente

Modelo de custo

Pague por token

Pagamento por inferência

Integração

API Gateway, Lambda, Amazon Bedrock Agents e RAG

Lambda, Step Functions e pipelines CI/CD

Ajuste necessário

Nenhum (tiro zero ou poucos disparos)

Controle total (hiperparâmetros e reciclagem)

A escolha do serviço certo depende da natureza da sua carga de trabalho de IA:

  • Use o Amazon Bedrock quando precisar de flexibilidade semântica, fluxos de trabalho orientados por metas e iteração rápida com modelos básicos.

  • Use a inferência SageMaker sem servidor quando tiver modelos proprietários, entradas estruturadas ou precisar de controle total sobre o treinamento e a implantação.

  • Use SageMaker JumpStart para escolher entre centenas de algoritmos integrados com modelos pré-treinados de hubs de modelos, incluindo TensorFlow HubHugging Face, PyTorch Hub e. MxNet GluonCV