View a markdown version of this page

Visão geral da solução -

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Visão geral da solução

Uma estrutura de ML escalável

Em uma empresa com milhões de clientes espalhados por várias linhas de negócios, os fluxos de trabalho de ML exigem a integração de dados pertencentes e gerenciados por equipes isoladas usando ferramentas diferentes para gerar valor comercial. Os bancos estão comprometidos com a proteção dos dados de seus clientes. Da mesma forma, a infraestrutura usada para o desenvolvimento de modelos de ML também está sujeita a altos padrões de segurança. Essa segurança adicional aumenta a complexidade e afeta o tempo de valorização dos novos modelos de ML. Em uma estrutura de ML escalável, é possível usar um conjunto de ferramentas modernizado e padronizado para reduzir o esforço necessário para combinar diferentes ferramentas e simplificar o processo do desenvolvimento à produção de novos modelos de ML.

Tradicionalmente, o gerenciamento e o suporte das atividades de ciência de dados no setor de serviços financeiros são controlados por uma equipe de plataforma central que reúne requisitos, provisiona recursos e mantém a infraestrutura para equipes de dados em toda a organização. Para escalar rapidamente o uso de ML em equipes federadas em toda a organização, é possível usar uma estrutura de ML escalável para fornecer recursos de autoatendimento para desenvolvedores de novos modelos e pipelines. Isso permite que esses desenvolvedores implantem uma infraestrutura moderna, pré-aprovada, padronizada e segura. Em última análise, esses recursos de autoatendimento reduzem a dependência da sua organização de equipes de plataformas centralizadas e aceleram a geração de valor para o desenvolvimento de modelos de ML.

A estrutura de ML escalável permite que os consumidores de dados (por exemplo, cientistas de dados ou engenheiros de ML) liberem valor comercial, o que oferece a eles a capacidade de fazer o seguinte:

  • Procurar e descobrir dados pré-aprovados que são necessários para o treinamento de modelos

  • Obter acesso a dados pré-aprovados de forma rápida e fácil

  • Usar dados pré-aprovados para provar a viabilidade do modelo

  • Lançar o modelo comprovado para produção para utilização por outras pessoas

O diagrama a seguir destaca o fluxo ponta a ponta da estrutura e a rota simplificada para os casos de uso de ML.

Em um contexto mais amplo, os consumidores de dados usam um acelerador com tecnologia sem servidor chamado data.all para obter dados em vários data lakes e, em seguida, usam os dados para treinar seus modelos, conforme ilustrado no diagrama a seguir.

Em um nível inferior, a estrutura escalável de ML contém o seguinte:

Um hub central para metadados

Data.allé um acelerador sem servidor que você pode integrar aos seus data lakes existentes da AWS para reunir metadados em um hub central. Uma interface de usuário simples e fácil de usar no data.all exibe metadados associados a conjuntos de dados de vários data lakes existentes. Isso permite que usuários não técnicos e técnicos pesquisem, naveguem e solicitem acesso a dados valiosos que podem ser usados em seus laboratórios de ML. Data.all usa AWS Lake Formation, AWS Lambda, Amazon Elastic Container Service (Amazon ECS) AWS Fargate, OpenSearch Amazon Service e. AWS Glue

SageMaker validação

Para provar as capacidades da SageMaker IA em uma variedade de arquiteturas de processamento de dados e ML, a equipe que implementa os recursos seleciona, junto com a equipe de liderança bancária, casos de uso de complexidade variável de diferentes divisões de clientes bancários. Os dados do caso de uso são ofuscados e disponibilizados em um bucket de dados local do Amazon Simple Storage Service (Amazon S3) na conta de desenvolvimento do caso de uso para a fase de comprovação das capacidades.

Quando a migração do modelo do ambiente de treinamento original para uma arquitetura de SageMaker IA estiver concluída, seu data lake hospedado na nuvem disponibilizará os dados para serem lidos pelos modelos de produção. As previsões geradas pelos modelos de produção são então gravadas de volta no data lake.

Depois que os casos de uso candidatos forem migrados, a estrutura escalável de ML usará uma linha de base inicial para as métricas de destino. É possível comparar a linha de base com os horários anteriores de provedores on-premises ou de outros provedores de nuvem como evidência das melhorias de tempo possibilitadas pela estrutura escalável de ML.