As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Próximas etapas para inferência com o Amazon SageMaker AI
Depois de ter um endpoint e entender o fluxo de trabalho geral de inferência, você pode utilizar os seguintes recursos no SageMaker AI para aprimorar o fluxo de trabalho de inferência:
Monitoramento
Para acompanhar o desempenho do seu modelo ao longo do tempo por meio de métricas como precisão do modelo e deriva, você pode usar o Model Monitor. Com o Model Monitor, você pode configurar alertas que o notificam quando houver desvios na qualidade do seu modelo. Para saber mais, consulte a documentação do Model Monitor.
Para saber mais sobre ferramentas que podem ser usadas para monitorar implantações de modelos e eventos que alteram seu endpoint, consulte Monitorar no Amazon SageMaker AI. Por exemplo, você pode monitorar a integridade do seu endpoint por meio de métricas como erros de invocação e latência do modelo usando as métricas do Amazon CloudWatch. As métricas de invocação de endpoint do SageMaker AI podem fornecer informações valiosas sobre o desempenho do endpoint.
CI/CD para implantação do modelo
Para reunir soluções de machine learning no SageMaker AI, você pode usar o SageMaker AI MLOps. Você pode usar esse atributo para automatizar as etapas em seu fluxo de trabalho de machine learning e aplicar práticas de CI/CD. Você pode usar os modelos de projeto de MLOps para ajudar na configuração e implementação dos projetos de MLOps do SageMaker AI. O SageMaker AI também permite que você use um repositório do Git de terceiros de sua preferência para criar um sistema de CI/CD.
Para seus pipelines de ML, use o registro do modelo para gerenciar suas versões de modelo e a implantação e automação de seus modelos.
Barreiras de proteção de implantação
Se você quiser atualizar seu modelo enquanto ele está em produção sem afetar a produção, você pode usar barreiras de proteção de implantação. As barreiras de proteção da implantação são um conjunto de opções de implantação de modelo no SageMaker AI Inference para atualizar seus modelos de machine learning em produção. Usando as opções do total gerenciamento de implantações, você pode controlar a mudança do modelo atual em produção para um novo. Os modos de deslocamento de tráfego oferecem controle detalhado sobre o processo de distribuição de tráfego, e salvaguardas incorporadas, como reversão automática, ajudam a identificar problemas precocemente.
Para saber mais sobre barreiras proteção de implantação, consulte a documentação de proteções de implantação.
Inferência
Se você precisar executar aplicações de machine learning e aprendizado profundo em grande escala, você pode usar uma instância Inf1 com um endpoint em tempo real. Esse tipo de instância é adequado para casos de uso como reconhecimento de imagem ou fala, processamento de linguagem natural (PLN), personalização, previsão ou detecção de fraudes.
As instâncias Inf1 são criadas para compatibilidade com aplicações de inferência de machine learning e apresentam os chips AWS Inferentia. As instâncias Inf1 oferecem alta throughput e menor custo por inferência do que as instâncias baseadas em GPU.
Para implantar um modelo em instâncias Inf1, compile seu modelo com o SageMaker Neo e escolha uma instância Inf1 para sua opção de implantação. Para saber mais, consulte Otimizar o desempenho do modelo usando o SageMaker Neo.
Otimizar o desempenho do modelo
O SageMaker AI oferece componentes para gerenciar recursos e otimizar o desempenho de inferência ao implantar modelos de machine learning. Você pode usar os algoritmos integrados e modelos predefinidos do SageMaker AI, bem como imagens do Docker predefinidas, que são desenvolvidas para machine learning.
Para treinar modelos e otimizá-los para implantação, consulte Imagens predefinidas do Docker Otimize o desempenho do modelo usando o SageMaker Neo. Com o SageMaker Neo, você pode treinar os modelos TensorFlow, Apache MXNet, PyTorch, ONNX e XGBoost. Em seguida, você pode otimizá-los e implantá-los nos processadores ARM, Intel e Nvidia.
Ajuste de escala automático
Se você tiver quantidades variáveis de tráfego em seus endpoints, talvez queira experimentar o ajuste de escala automático. Por exemplo, durante as horas de pico, você pode precisar de mais instâncias para processar solicitações. No entanto, durante períodos de baixo tráfego, você pode querer reduzir o uso de recursos computacionais. Para ajustar dinamicamente o número de instâncias provisionadas em resposta a alterações na workload, consulte Escalabilidade automática dos modelos de SageMaker IA da Amazon.
Se você tiver padrões de tráfego imprevisíveis ou não quiser configurar políticas de ajuste de escala, você também pode usar a inferência da tecnologia sem servidor para um endpoint. Em seguida, o SageMaker AI gerencia o ajuste de escala automático para você. Durante períodos de baixo tráfego, o SageMaker AI reduz a escala vertical de seu endpoint e, se o tráfego aumentar, o SageMaker AI aumenta a escala vertical de seu endpoint. Para obter mais informações, consulte a documentação do Implante modelos com o Amazon SageMaker Serverless Inference.