Algoritmos integrados e modelos pré-treinados na Amazon SageMaker - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Algoritmos integrados e modelos pré-treinados na Amazon SageMaker

SageMaker A Amazon fornece um conjunto de algoritmos integrados, modelos pré-treinados e modelos de soluções pré-criados para ajudar cientistas de dados e profissionais de aprendizado de máquina a começar a treinar e implantar modelos de aprendizado de máquina rapidamente. Para alguém que é novato SageMaker, escolher o algoritmo certo para seu caso de uso específico pode ser uma tarefa desafiadora. A tabela a seguir fornece uma rápida folha de dicas que mostra como você pode começar com um exemplo de problema ou caso de uso e encontrar um algoritmo incorporado apropriado oferecido por SageMaker ele que seja válido para esse tipo de problema. Orientações adicionais organizadas por paradigmas de aprendizado (supervisionados e não supervisionados) e domínios de dados importantes (texto e imagens) são fornecidas nas seções a seguir à tabela.

Tabela: Mapeando casos de uso para algoritmos integrados

Paradigma ou domínio de aprendizado Tipos de problema Exemplos de problemas e casos de uso Formato dos dados de entrada Algoritmos integrados
Modelos pré-treinados e modelos de soluções pré-criados

Classificação de imagens

Classificação tabular

Regressão tabular

Classificação de texto

Detecção de objetos

Incorporação de texto

Perguntas e respostas

Classificação de pares de frases

Incorporação de imagens

Reconhecimento de entidades nomeadas

Segmentação de instância

Geração de texto

Resumo de texto

Segmentação semântica

Tradução de máquina

Aqui estão alguns exemplos dos 15 tipos de problemas que podem ser resolvidos pelos modelos pré-treinados e modelos de soluções pré-criados fornecidos pela Amazon: SageMaker JumpStart

Resposta a perguntas: chatbot que gera uma resposta para uma determinada pergunta.

Análise de texto: analise textos de modelos específicos de um domínio do setor, como finanças.

Imagem, texto, tabular

Modelos populares, incluindo Mobilenet, YOLO, Faster R-CNN, BERT, LightGBM e CatBoost

Para obter uma lista dos modelos pré-treinados disponíveis, consulte JumpStart Modelos.

Para obter uma lista dos modelos de solução predefinidos disponíveis, consulte JumpStart Soluções.

Aprendizado supervisionado

Classificação binária/multiclasse

Preveja se um item pertence a uma categoria: um filtro de spam por e-mail

Tabular

AutoGluon-Tabular, CatBoost, Algoritmo de Máquinas de fatoração, Algoritmo k-nearest neighbors (k-NN), LightGBM, Algoritmo de Aprendizagem linear, TabTransformer, XGBoost algoritmo com Amazon SageMaker AI

Regressão

Preveja um numeric/continuous valor: estime o valor de uma casa

Tabular

AutoGluon-Tabular, CatBoost, Algoritmo de Máquinas de fatoração, Algoritmo k-nearest neighbors (k-NN), LightGBM, Algoritmo de Aprendizagem linear, TabTransformer, XGBoost algoritmo com Amazon SageMaker AI

Previsão de séries temporais

Com base nos dados históricos de um comportamento, preveja o comportamento futuro: preveja as vendas de um novo produto com base nos dados de vendas anteriores.

Tabular

Usar o algoritmo de predição DeepAR do SageMaker AI

Incorporações: converta objetos de alta dimensão em espaço de baixa dimensão.

Melhore a incorporação de dados dos objetos de alta dimensão: identifique tickets de atendimento duplicados ou encontre o roteamento correto com base na similaridade do texto nos tickets

Tabular Algoritmo Object2Vec
Aprendizado não supervisionado

Engenharia de atributos: redução de dimensionalidade

Elimine essas colunas de um conjunto de dados que têm uma relação fraca com a label/target variável: a cor de um carro ao prever sua quilometragem.

Tabular

Algoritmo de Análise de componente principal (PCA)

Detecção de anomalias

Detecte comportamento anormal na aplicação: detecte quando um sensor de IoT está enviando leituras anormais

Tabular

Algoritmo RCF (Random Cut Forest)

Detecção de anomalias de IP

Proteja sua aplicação contra usuários suspeitos: detecte se um endereço IP que acessa um serviço pode ser de um agente mal-intencionado

Tabular

IP Insights

Cluster ou agrupamento

Agrupe similares: encontre clientes objects/data com gastos altos, médios e baixos a partir de seus históricos de transações

Tabular

Algoritmo k-means

Modelagem de tópicos

Organize um conjunto de documentos em tópicos (não conhecidos de antemão): marque um documento como pertencente a uma categoria médica com base nos termos usados no documento.

Texto

Algoritmo Latent Dirichlet Allocation (LDA), Algoritmo de Modelo de tópicos neurais (NTM)

Análise de texto

Classificação de texto

Atribua categorias predefinidas a documentos em um corpus: categorize livros em uma biblioteca em disciplinas acadêmicas

Texto

Algoritmo BlazingText, Classificação de texto - TensorFlow

Tradução de máquina

algoritmo

Converter texto de um idioma para outro: espanhol para inglês

Texto

Algoritmo Sequence-to-Sequence

Resumo de texto

Resuma um corpus de texto longo: um resumo para um paper de pesquisa

Texto

Algoritmo Sequence-to-Sequence

S peech-to-text

Converta arquivos de áudio em texto: transcreva conversas da central de atendimento para análise posterior

Texto

Algoritmo Sequence-to-Sequence

Processamento de imagens

Classificação de imagem e vários rótulos

Rotular/marcar uma imagem com base no conteúdo da imagem: alertas sobre conteúdo adulto em uma imagem

Imagem

Classificação de imagens - MXNet

Classificação de imagens

Classifique algo em uma imagem usando o aprendizado por transferência.

Imagem

Classificação de imagens - TensorFlow

Detecção e classificação de objetos

Detecte pessoas e objetos em uma imagem: a polícia analisa uma grande galeria de fotos de uma pessoa desaparecida

Imagem

Detecção de objetos - MXNet, Detecção de objetos - TensorFlow

Visão computacional

Marque cada pixel de uma imagem individualmente com uma categoria: carros autônomos se preparam para identificar objetos em seu caminho

Imagem

Algoritmo de segmentação semântica

Para obter informações importantes sobre os seguintes itens comuns a todos os algoritmos integrados fornecidos pela SageMaker IA, consulteParâmetros para algoritmos integrados.

  • Caminhos de registro Docker

  • formatos de dados

  • tipos de EC2 instância recomendados da Amazon

  • CloudWatch troncos

As seções a seguir fornecem orientações adicionais para os algoritmos integrados de SageMaker IA da Amazon, agrupados pelos paradigmas de aprendizado supervisionado e não supervisionado aos quais eles pertencem. Para obter descrições desses paradigmas de aprendizado e dos tipos de problemas associados, consulte Tipos de Algoritmos. Também são fornecidas seções para os algoritmos integrados de SageMaker IA disponíveis para abordar dois domínios importantes de aprendizado de máquina: análise textual e processamento de imagens.

Modelos pré-treinados e modelos de soluções

SageMaker JumpStart A Amazon fornece uma ampla variedade de modelos pré-treinados, modelos de soluções pré-criados e exemplos para tipos de problemas populares. Eles usam o SageMaker SDK e o Studio Classic. Para obter mais informações sobre esses modelos, soluções e os exemplos de notebooks fornecidos pela Amazon SageMaker JumpStart, consulteSageMaker JumpStart modelos pré-treinados.

Aprendizado supervisionado

A Amazon SageMaker AI fornece vários algoritmos integrados de uso geral que podem ser usados para problemas de classificação ou regressão.

  • AutoGluon-Tabular: uma estrutura de AutoML de código aberto que é bem-sucedida ao agrupar modelos e empilhá-los em várias camadas.

  • CatBoost: uma implementação do algoritmo de árvores com aumento de gradiente que introduz o aumento ordenado e um algoritmo inovador para processar atributos categóricos.

  • Algoritmo de Máquinas de fatoração: é uma extensão de um modelo linear projetado para capturar, com baixo custo, as interações entre os atributos presentes em conjuntos de dados esparsos altamente dimensionais.

  • Algoritmo k-nearest neighbors (k-NN): um método não paramétrico que usa os pontos k rotulados mais próximos para atribuição de um valor. Para classificação, é um rótulo para um novo ponto de dados. Para regressão, é um valor de destino previsto a partir da média dos pontos k mais próximos.

  • LightGBM: uma implementação do algoritmo de árvores com aumento de gradiente que adiciona duas novas técnicas para melhorar a eficiência e a escalabilidade. Essas duas novas técnicas são a amostragem unilateral baseada em gradiente (GOSS) e empacotamento de atributos exclusivos (EFB).

  • Algoritmo de Aprendizagem linear: aprende uma função linear para regressão ou uma função de limite linear para classificação.

  • TabTransformer—uma nova arquitetura de modelagem de dados tabular profunda baseada em self-attention-based Transformers.

  • XGBoost algoritmo com Amazon SageMaker AI: uma implementação do algoritmo de árvores com aumento de gradiente que combina um conjunto de estimativas a partir de um conjunto de modelos mais simples e menos robustos.

A Amazon SageMaker AI também fornece vários algoritmos de aprendizado supervisionado integrados usados para tarefas mais especializadas durante a engenharia de recursos e a previsão a partir de dados de séries temporais.

  • Algoritmo Object2Vec: um novo algoritmo multiuso altamente personalizável usado para engenharia de atributos. Ele pode aprender incorporações densas de baixa dimensão de objetos de alta dimensão para produzir atributos que melhoram a eficiência do treinamento para modelos posteriores. Embora esse seja um algoritmo supervisionado, há muitos cenários nos quais os rótulos de relacionamento podem ser obtidos puramente a partir de agrupamentos naturais de dados. Embora exija dados rotulados para treinamento, isso pode ocorrer sem qualquer anotação humana explícita.

  • Usar o algoritmo de predição DeepAR do SageMaker AI: o algoritmo de aprendizado supervisionado é um algoritmo de aprendizado supervisionado para previsão de séries temporais escalares (unidimensionais) usando redes neurais recorrentes (RNN).

Aprendizado não supervisionado

A Amazon SageMaker AI fornece vários algoritmos integrados que podem ser usados para uma variedade de tarefas de aprendizado não supervisionadas. Essas tarefas incluem clustering, redução de dimensão, reconhecimento de padrões e detecção de anomalias.

  • Algoritmo de Análise de componente principal (PCA): reduz a dimensionalidade (número de atributos) em um conjunto de dados projetando pontos de dados nos primeiros componentes principais. O objetivo é reter o máximo possível de informações ou variações. Para matemáticos, os componentes principais são autovetores da matriz de covariância dos dados.

  • Algoritmo k-means: localiza agrupamentos discretos nos dados. Ocorre quando os membros de um grupo forem o mais similares possível entre eles e o mais diferentes possível dos membros de outros grupos.

  • IP Insights—aprende os padrões de uso dos endereços. IPv4 Ele foi projetado para capturar associações entre IPv4 endereços e várias entidades, como números de usuários IDs ou contas.

  • Algoritmo RCF (Random Cut Forest): detecta pontos de dados anômalos em um conjunto de dados que divergem de dados bem estruturados ou padronizados.

Análise de texto

SageMaker A IA fornece algoritmos personalizados para a análise de documentos textuais. Inclui o texto usado no processamento de linguagem natural, classificação ou resumo de documentos, modelagem ou classificação de tópicos e transcrição ou tradução de idiomas.

  • Algoritmo BlazingText: uma implantação altamente otimizada do Word2vec e dos algoritmos de classificação de texto que podem ser facilmente escalados para grandes conjuntos de dados. É útil para muitas tarefas posteriores de processamento de linguagem natural (PLN).

  • Algoritmo Sequence-to-Sequence: esse algoritmo supervisionado é comumente usado para tradução de máquina neural.

  • Algoritmo Latent Dirichlet Allocation (LDA): esse algoritmo é adequado para determinar tópicos em um conjunto de documentos. É um algoritmo não supervisionado, o que significa que ele não usa dados de exemplo com respostas durante o treinamento.

  • Algoritmo de Modelo de tópicos neurais (NTM): outra técnica não supervisionada para determinar tópicos em um conjunto de documentos, usando uma abordagem de rede neural.

  • Classificação de texto - TensorFlow: um algoritmo supervisionado que oferece apoio ao aprendizado por transferência com modelos pré-treinados disponíveis para classificação de texto.

Processamento de imagens

SageMaker A IA também fornece algoritmos de processamento de imagem que são usados para classificação de imagens, detecção de objetos e visão computacional.

  • Classificação de imagens - MXNet: usa dados de exemplo com respostas (conhecido como algoritmo supervisionado). Use esse algoritmo para classificar imagens.

  • Classificação de imagens - TensorFlow—usa modelos de TensorFlow Hub pré-treinados para ajustar tarefas específicas (conhecido como algoritmo supervisionado). Use esse algoritmo para classificar imagens.

  • Algoritmo de segmentação semântica: fornece uma abordagem granular em nível de pixel ao desenvolvimento de aplicações de visão computacional.

  • Detecção de objetos - MXNet: detecta e classifica objetos em imagens usando uma única rede neural profunda. Ele é um algoritmo de aprendizado supervisionado que captura imagens como entrada e identifica todas as instâncias de objetos na cena da imagem.

  • Detecção de objetos - TensorFlow: detecta caixas delimitadoras e rótulos de objetos em uma imagem. É um algoritmo de aprendizado supervisionado que oferece suporte ao aprendizado por transferência com modelos pré-treinados TensorFlow disponíveis.