As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Pilar Excelência operacional
O pilar de excelência operacional do AWS Well-Architected Framework se concentra na execução e monitoramento de sistemas e na melhoria contínua de processos e procedimentos para agregar valor comercial. O pilar da excelência operacional inclui a capacidade de apoiar o desenvolvimento e executar cargas de trabalho de forma eficaz, além de obter informações sobre suas operações.
Você pode reduzir a complexidade operacional por meio de workloads de autorrecuperação, que detectam e solucionam a maioria dos problemas sem intervenção humana. Para atingir esse objetivo, siga as melhores práticas descritas nesta seção. Use CloudWatch métricas da Amazon para Amazon Timestream para InfluxDB, o endpoint APIs de métricas nativas do InfluxDB, e mecanismos para responder quando sua carga de trabalho se desvia do comportamento esperado.
Essa discussão sobre o pilar de excelência operacional se concentra nas seguintes áreas principais:
-
Infraestrutura como código (IaC)
-
Gerenciamento de alterações
-
Estratégias de resiliência
-
Gerenciamento de incidentes
-
Registro e monitoramento para fins de auditoria
Automatize a implantação usando uma abordagem de IaC
As melhores práticas para automatizar a implantação no Timestream for InfluxDB usando o IaC incluem o seguinte:
-
Aplique o IaC para implantar o Timestream para o InfluxDB sempre que possível. Para uma configuração consistente do ambiente, use um AWS CloudFormationmodelo ou o HashiCorp Terraform
para criar todos os recursos necessários para sua instância. AWS Cloud Development Kit (AWS CDK) -
Automatize os procedimentos operacionais do Timestream para o InfluxDB, como redimensionar instâncias.
-
Use tags para adicionar metadados aos recursos do Timestream for InfluxDB e acompanhe o uso com base em tags. Para obter mais informações, consulte Como marcar o Amazon Timestream para o InfluxDB.
Fazer alterações frequentes, pequenas e reversíveis
As recomendações a seguir focam as mudanças pequenas e reversíveis para minimizar a complexidade e reduzir a probabilidade de interrupção da workload:
-
Armazene modelos e scripts de IaC em um serviço de controle de origem, como ou. GitHub GitLab Não armazene AWS credenciais no controle de origem.
-
Exija que as implantações de IaC usem um serviço de integração e entrega contínuas (CI/CD), como o AWS CodeDeploy ou AWS CodeBuild. Esses serviços compilam, testam e implantam código em um ambiente de não produção que contém uma instância efêmera do InfluxDB antes de afetar sua instância de produção do InfluxDB.
-
Teste as consultas de infraestrutura e aplicações em um ambiente inferior antes de implantá-las na produção. Isso minimiza a probabilidade de uma interrupção e ajuda a garantir que eles funcionem bem com sua carga de trabalho e escala.
Antecipar falha
Uma infraestrutura de autorrecuperação exemplifica a excelência operacional ao antecipar falhas e tentar resolver quaisquer problemas sem intervenção. As recomendações a seguir ajudam você a atingir essa maturidade com o Timestream for InfluxDB:
-
Use métricas para monitorar sua memória, CPU e uso de armazenamento. O CloudWatch pode ser configurado para lhe notificar quando os padrões de uso mudam ou quando você se aproxima da capacidade de implantação. Dessa maneira, é possível manter a disponibilidade e a performance do sistema.
-
Amplie sua instância de banco de dados quando estiver se aproximando do limite de recursos. É preciso ter algum buffer de armazenamento e memória para acomodar aumentos imprevistos na demanda de seus aplicativos.
-
Se a carga de trabalho do seu banco de dados exigir I/O mais do que você provisionou, a recuperação após um failover ou falha no banco de dados será lenta. Para aumentar a I/O capacity of a DB instance, migrate to a different DB instance that has higher I/O capacidade.
-
Se seu aplicativo cliente estiver armazenando em cache os dados DNS de suas instâncias de banco de dados, defina um valor time-to-live (TTL) de menos de 30 segundos. O endereço IP subjacente de uma instância de banco de dados pode ser alterado após um failover. Armazenar os dados do DNS em cache por um longo período pode levar a falhas de conexão. Sua aplicação pode tentar se conectar a um endereço IP que não está mais em serviço.
-
Se seu aplicativo precisar sobreviver a uma Região da AWS paralisação completa, considere configurar a replicação ou gravar em uma região diferente como parte de seus planos de recuperação de desastres (DR). Entenda as limitações ao configurar a replicação. Para obter mais informações sobre replicação, consulte a documentação do InfluxDB
.
Aprenda com todas as falhas operacionais
Uma infraestrutura de autorrecuperação é um esforço de longo prazo que você desenvolve em iterações quando ocorrem problemas raros ou quando as respostas não são tão eficazes quanto você deseja. Para se concentrar em alcançar uma infraestrutura de autorrecuperação, adote as seguintes práticas:
-
Promova a melhoria aprendendo com todas as falhas.
-
Compartilhe o que foi aprendido com as equipes e a organização. Se várias equipes de uma organização usarem o Timestream for InfluxDB, crie uma sala de bate-papo ou grupo de usuários comum para compartilhar as lições aprendidas e as melhores práticas.
Use recursos de registro em log para monitorar atividades não autorizadas ou anômalas
Para observar padrões anômalos de desempenho e atividade, considere as seguintes práticas:
-
Habilite a entrega de logs para armazenar logs do InfluxDB no Amazon Simple Storage Service (Amazon S3). O InfluxDB registra informações de registro que podem ajudar a verificar o seguinte:
-
Tempos de resposta
-
Detalhes de compactação
-
Quaisquer erros ou avisos críticos encontrados pelo sistema
Analise os registros em busca de acesso não autorizado ou anomalias. No geral, o registro fornece informações de diagnóstico para solução de problemas.
-
O Timestream for InfluxDB suporta o registro de ações do plano de controle usando. AWS CloudTrail Para obter mais informações, consulte Logging Timestream para chamadas de API do InfluxDB com. AWS CloudTrail
-
Você pode monitorar e
DiskUtilizationmétricasCPUUtilizationdeMemoryUtilizationTimestream/InfluxDB > < Namespace > in. CloudWatch
Para obter mais informações, consulte a documentação do Timestream for InfluxDB.