Padrão 3: inferência em tempo real na borda - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Padrão 3: inferência em tempo real na borda

Muitos casos de uso corporativo exigem uma tomada de decisão inteligente no ponto de interação, seja essa interação com um cliente, uma máquina, um veículo ou um dispositivo de IoT. Nesses cenários, a inferência somente na nuvem não é suficiente devido aos seguintes problemas:

  • Restrições de latência — Milissegundos são importantes nas experiências do usuário, como personalização, recomendações e verificações de fraudes.

  • Conectividade intermitente ou sem conectividade — Ambientes remotos, como industriais, agrícolas e de saúde, geralmente não têm acesso consistente à nuvem. APIs

  • Alto volume de dados — Enviar grandes cargas úteis de sensores ou imagens para a nuvem para inferência é ineficiente e caro.

  • Requisitos regulatórios — Em algumas jurisdições, os dados confidenciais devem permanecer locais.

As arquiteturas tradicionais que dependem exclusivamente da inferência centralizada de ML introduzem atrasos, aumentam os custos e podem deixar de atender aos usuários ou sistemas de forma eficaz em ambientes de ponta.

O padrão de inferência de borda: inteligência em tempo real na borda

O padrão de inferência de borda em tempo real permite que as organizações executem cargas de trabalho de inferência mais perto do usuário ou do dispositivo, usando serviços gerenciados pela. AWS Esses serviços incluem AWS IoT Greengrass, que permitem inferência localizada e com capacidade offline em dispositivos físicos de ponta. Além disso, o Lambda @Edge permite a execução de uma lógica leve de IA nos pontos de CloudFront presença da Amazon em todo o mundo.

Esses serviços sem servidor permitem experiências de IA distribuídas que são instantâneas, resilientes a problemas de conectividade e compatíveis com requisitos regionais e sensíveis à latência.

A arquitetura de referência implementa cada camada da seguinte forma:

  • Acionador de eventos — usa eventos periféricos (como leituras de sensores e alterações no estado do dispositivo) ou solicita o visualizador. CloudFront

  • Processamento — implementa uma função AWS IoT Greengrass Lambda local para formatar entradas, extrair metadados ou filtrar ruídos. Usa o Lambda @Edge para inspecionar cabeçalhos ou geolocalização.

  • Inferência — implanta um modelo de ML por meio de um AWS IoT Greengrass componente (por exemplo, PyTorch ouONNX) ou faz chamadas remotas de API para o Amazon Bedrock ou o Amazon SageMaker Serverless Inference por meio do Lambda @Edge.

  • Pós-processamento — usa AWS IoT Greengrass para publicar a detecção de anomalias nas sombras do dispositivo MQTT ou AWS IoT. Usa o Lambda @Edge para personalizar respostas e definir cookies.

  • Saída — Sincroniza com AWS IoT CoreAmazon S3 ou Amazon. EventBridge Fornece respostas por meio CloudFront do navegador ou do painel do dispositivo.

nota

Cada camada desempenha um papel na redução do tempo de resposta, na otimização da largura de banda e na localização da inteligência.

Casos de uso do padrão de inferência de borda

A inferência em tempo real no padrão de borda oferece suporte a várias implementações em diferentes setores. Aqui estão dois exemplos representativos:

  • Monitoramento de equipamentos de fábrica e AWS IoT Greengrass — Uma fábrica implanta gateways que são habilitados AWS IoT Greengrass para detectar anomalias nas vibrações do equipamento. O modelo é executado localmente, alertando a operadora em tempo real e enviando apenas dados resumidos para a nuvem.

  • Conteúdo web personalizado e Lambda @Edge — Um site de comércio eletrônico usa o Lambda @Edge para analisar cookies e cabeçalhos em solicitações recebidas. O Lambda @Edge ajuda o site a fornecer recomendações personalizadas e imagens de produtos em menos de 50 ms, sem viagens de ida e volta ao back-end.

Melhores práticas de segurança e gerenciamento na borda

Tanto o IoT Greengrass quanto o Lambda @Edge estão totalmente integrados ao (IAM) e AWS Identity and Access Managementà Amazon. AWS IoT Core CloudWatch As principais práticas recomendadas incluem o seguinte:

  • Assinatura e verificação de código para AWS IoT Greengrass componentes

  • Inspeção e registro de tráfego regional para Lambda @Edge

  • Atualizações seguras do modelo over-the-air (OTA) usando buckets Amazon S3 e pipelines de integração contínua e implantação contínua (CI/CD)

  • Funções refinadas do IAM para limitar o acesso aos dados na borda

Comparando com AWS IoT Greengrass o Lambda @Edge

A tabela a seguir compara os principais aspectos operacionais do Lambda @Edge AWS IoT Greengrass e do Lambda no contexto da inferência de borda.

Consideração

AWS IoT Greengrass

Lambda@Edge

Funciona offline

Sim

Não

Lida com dados locais do sensor e do atuador

Sim

Não

Bom para personalização global da web

Não

Sim

Suporta modelos de IA

Inferência local completa

Lógica leve e chamadas de API de nuvem

Integração com Amazon Bedrock ou SageMaker Serverless Inference

Por meio de sincronização e registro assíncronos

Por meio do Amazon API Gateway, fallback ou armazenamento em cache

Ao usar esse padrão, as empresas podem incorporar a IA onde ela é mais necessária, no chão de fábrica, no campo, no navegador ou em todo o mundo. A inferência em tempo real no padrão de borda é essencial para:

  • Aplicativos com requisitos de baixa latência e alta disponibilidade

  • Dispositivos Edge em ambientes remotos ou de alto rendimento

  • Experiências globais do consumidor onde a localização é importante

Ao combinar AWS IoT Greengrass a inteligência no dispositivo com o Lambda @Edge para proximidade com os usuários AWS , permite uma abordagem poderosa e sem servidor para uma IA de ponta escalável, resiliente e econômica.

Valor comercial do padrão de inferência de borda

O padrão de inferência de borda agrega valor nas seguintes áreas:

  • Desempenho — obtém inferência de menos de 100 ms para aplicativos voltados para o usuário ou automação urgente

  • Confiabilidade — Funciona sem conectividade, o que é especialmente importante para IoT ou implantações remotas

  • Economia de largura de banda — mantém os dados brutos locais e envia apenas eventos significativos para a nuvem

  • Conformidade — mantém a inferência e os dados localmente para cumprir a governança regional, como o Regulamento Geral de Proteção de Dados (GDPR) e a Lei de Portabilidade e Responsabilidade de Seguros de Saúde de 1996 (HIPAA)

  • Controle de custos — Minimiza o uso de recursos na nuvem e o tráfego de rede quando não é essencial