Análise

AWS fornece um conjunto abrangente de serviços de análise que atendem a todas as suas necessidades de análise de dados e permite que organizações de todos os tamanhos e setores reinventem seus negócios com dados. De armazenamento e gerenciamento, governança de dados, ações e experiências, AWS oferece serviços personalizados que oferecem a melhor relação preço-desempenho, escalabilidade e menor custo.

Cada serviço é descrito após o diagrama. Para ajudá-lo a decidir qual serviço atende melhor às suas necessidades, consulte Escolha de um serviço de AWS análise. Para acessar informações gerais, consulte Analytics na AWS.

Diagrama mostrando serviços de AWS análise

Voltar para serviços da AWS.

Amazon Athena

O Amazon Athena é um serviço de consultas interativas que facilita a análise de dados no Amazon S3 usando SQL padrão. Como o Athena é sem servidor, não há infraestrutura para gerenciar, e você paga apenas pelas consultas executadas.

O Athena é fácil de usar. Basta apontar para seus dados no Amazon S3, definir o esquema e começar a consultar usando SQL padrão. A maioria dos resultados é entregue em segundos. Com o Athena, não há necessidade de trabalhos complexos de extração, transformação e carregamento (ETL) para preparar seus dados para análise. Isso torna mais fácil para qualquer pessoa com habilidades em SQL analisar rapidamente conjuntos de dados em larga escala.

O Athena é out-of-the-box integrado ao AWS Glue Data Catalog, permitindo que você crie um repositório unificado de metadados em vários serviços, rastreie fontes de dados para descobrir esquemas e preencher seu catálogo com definições de tabelas e partições novas e modificadas, além de manter o controle de versão do esquema.

Amazon CloudSearch

CloudSearchA Amazon é um serviço gerenciado Nuvem AWS que torna simples e econômico configurar, gerenciar e escalar uma solução de pesquisa para seu site ou aplicativo. A Amazon CloudSearch oferece suporte a 34 idiomas e recursos de pesquisa populares, como destaque, preenchimento automático e pesquisa geoespacial.

Amazon DataZone

DataZoneA Amazon é um serviço de gerenciamento de dados que você pode usar para publicar dados e disponibilizá-los para o catálogo de dados comerciais por meio de seu aplicativo web personalizado. Você pode acessar seus dados com mais segurança, independentemente de onde eles estejam armazenados: no local ou em aplicativos AWS SaaS, como o Salesforce. A Amazon DataZone simplifica sua experiência em AWS serviços como Amazon Redshift, Amazon Athena AWS Glue,, AWS Lake Formation e Quick.

Amazon EMR

O Amazon EMR é a plataforma de big data na nuvem líder do setor para processar grandes quantidades de dados usando ferramentas de código aberto, como Apache Spark, Apache Hive, Apache , Apache Flink, Apache Hudi e HBasePresto. Com o Amazon EMR, é mais fácil configurar, operar e escalar seus ambientes de big data automatizando tarefas demoradas, como provisionamento de capacidade e ajuste de clusters. Com o Amazon EMR, você pode executar análises em escala de petabytes por menos da metade do custo das soluções on-premises tradicionais e mais de três vezes mais rápido do que o Apache Spark padrão. Você pode executar workloads em instâncias do Amazon EC2, em clusters do Amazon Elastic Kubernetes Service (Amazon EKS) ou na infraestrutura on-premises usando o Amazon EMR no AWS Outposts.

Amazon FinSpace

Amazon FinSpaceé um serviço de gerenciamento e análise de dados desenvolvido especificamente para o setor de serviços financeiros (FSI). FinSpace reduz o tempo gasto encontrando e preparando petabytes de dados financeiros para estarem prontos para análise de meses para minutos.

Organizações de serviços financeiros analisam dados de repositórios internos, como sistemas de portfólio, atuária e gerenciamento de riscos, bem como petabytes de dados provenientes de feeds de terceiros, como preços históricos de títulos de bolsas de valores. Pode levar meses para encontrar os dados certos, ter permissões para acessar os dados de forma compatível e prepará-los para análise.

FinSpace elimina o trabalho pesado de criar e manter um sistema de gerenciamento de dados para análise financeira. Com isso FinSpace, você coleta dados e os cataloga de acordo com conceitos comerciais relevantes, como classe de ativos, classificação de risco ou região geográfica. FinSpace facilita a descoberta e o compartilhamento de dados em toda a organização, de acordo com seus requisitos de conformidade. Você define suas políticas de acesso a dados em um só lugar e FinSpace as aplica, mantendo registros de auditoria para permitir relatórios de conformidade e atividades. FinSpace também inclui uma biblioteca de mais de 100 funções, como barras de tempo e bandas de Bollinger, para você preparar dados para análise.

Amazon Kinesis

O Amazon Kinesis facilita a coleta, o processamento e a análise de dados de streaming em tempo real para que você possa receber insights oportunos e reagir rapidamente a novas informações. O Amazon Kinesis oferece recursos essenciais para processar dados de streaming de forma econômica em qualquer escala, além da flexibilidade de escolher as ferramentas que melhor atendem aos requisitos da sua aplicação. Com o Amazon Kinesis, é possível ingerir dados em tempo real, como vídeo, áudio, logs de aplicações, fluxos de cliques de sites e dados de telemetria de IoT para machine learning (ML), analytics e outras aplicações. O Amazon Kinesis permite que você processe e analise dados à medida que eles chegam e responda instantaneamente, em vez de ter que esperar até que todos os seus dados sejam coletados para que o processamento possa começar.

Atualmente, o Amazon Kinesis oferece quatro serviços: Firehose, Managed Service para Apache Flink, Kinesis Data Streams e Kinesis Video Streams.

Amazon Data Firehose

O Amazon Data Firehose é a maneira mais fácil de carregar dados de streaming em datastores e ferramentas de analytics. Ele pode capturar, transformar e carregar dados de streaming no Amazon S3, Amazon Redshift, OpenSearch Amazon Service e Splunk, permitindo análises quase em tempo real com ferramentas e painéis de inteligência de negócios existentes que você já usa atualmente. Ele é um serviço totalmente gerenciado que escala automaticamente para atender ao throughput dos seus dados e exige uma administração contínua. Ele pode separar em lotes, compactar, transformar e criptografar os dados antes de carregá-los, o que minimiza o volume de armazenamento usado no destino e aumenta a segurança.

Você pode criar facilmente um stream de entrega do Firehose a partir do Console de gerenciamento da AWS, configurá-lo com alguns cliques e começar a enviar dados para o stream de centenas de milhares de fontes de dados para serem carregados continuamente AWS— tudo em apenas alguns minutos. Você também pode configurar seu fluxo de entrega para converter automaticamente os dados recebidos em formatos colunares, como Apache Parquet e Apache ORC, antes que os dados sejam entregues ao Amazon S3, para armazenamento e analytics econômicos.

Amazon Managed Service for Apache Flink

O Amazon Managed Service for Apache Flink é a maneira mais fácil de analisar dados de streaming, receber insights acionáveis e responder às necessidades de sua empresa e de seus clientes em tempo real. O Amazon Managed Service para Apache Flink reduz a complexidade de criar, gerenciar e integrar aplicativos de streaming com outros serviços. AWS Os usuários do SQL podem consultar facilmente dados de streaming ou criar aplicações de streaming inteiros usando modelos e um editor de SQL interativo. Os desenvolvedores de Java podem criar rapidamente aplicações de streaming sofisticados usando bibliotecas Java de código aberto e integrações da AWS para transformar e analisar dados em tempo real.

O Amazon Managed Service for Apache Flink cuida de tudo o que é necessário para executar suas consultas continuamente e escala automaticamente para corresponder ao volume e ao throughput dos dados recebidos.

Amazon Kinesis Data Streams

O Amazon Kinesis Data Streams é um serviço de streaming de dados em tempo real altamente escalável e durável. O Kinesis Data Streams pode capturar e armazenar continuamente gigabytes de dados por segundo de centenas de milhares de fontes, como clickstreams de sites, fluxos de eventos de banco de dados, transações financeiras, feeds de redes sociais, logs de TI e eventos de rastreamento de localização. Os dados coletados ficam disponíveis em milissegundos para permitir casos de uso de analytics em tempo real, como painéis em tempo real, detecção de anomalias em tempo real, preços dinâmicos e muito mais.

Amazon Kinesis Video Streams

O Amazon Kinesis Video Streams facilita a transmissão segura de vídeo de AWS dispositivos conectados para análise, ML, reprodução e outros processamentos. O Kinesis Video Streams provisiona automaticamente e escala de forma elástica toda a infraestrutura necessária para ingerir dados de streaming de vídeo de milhões de dispositivos. Ele também armazena, criptografa e indexa de forma durável os dados de vídeo em seus streams e permite que você acesse seus dados por meio de. easy-to-use APIs O Kinesis Video Streams permite que você reproduza vídeo para visualização ao vivo e sob demanda e crie rapidamente aplicativos que aproveitam a visão computacional e a análise de vídeo por meio da integração com o Amazon Rekognition Video e bibliotecas para estruturas de ML, como Apache e OpenCV. MxNet TensorFlow

OpenSearch Serviço Amazon

O Amazon OpenSearch Service (OpenSearch Service) facilita a implantação, a proteção, a operação e OpenSearch a escalabilidade para pesquisar, analisar e visualizar dados em tempo real. Com o Amazon OpenSearch Service, você obtém easy-to-use APIs recursos de análise em tempo real para potencializar casos de uso, como análise de log, pesquisa de texto completo, monitoramento de aplicativos e análise de fluxo de cliques, com disponibilidade, escalabilidade e segurança de nível empresarial. O serviço oferece integrações com ferramentas de código aberto, como OpenSearch painéis e Logstash, para ingestão e visualização de dados. Ele também se integra perfeitamente a outros AWS serviços, como Amazon Virtual Private Cloud (Amazon VPC), (AWS Key Management Service), Amazon Data Firehose AWS KMS,, (IAM AWS Identity and Access Management ) AWS Lambda, Amazon Cognito e CloudWatchAmazon, para que você possa passar de dados brutos a insights acionáveis rapidamente.

Amazon sem OpenSearch servidor

O Amazon OpenSearch Serverless é uma opção sem servidor no Amazon Service. OpenSearch Como desenvolvedor, você pode usar o OpenSearch Serverless para executar cargas de trabalho em escala de petabytes sem configurar, gerenciar e escalar clusters. OpenSearch Você obtém os mesmos tempos de resposta interativos em milissegundos do OpenSearch Service com a simplicidade de um ambiente sem servidor.

O mecanismo vetorial do Amazon OpenSearch Serverless adiciona um recurso de pesquisa e armazenamento vetorial simples, escalável e de alto desempenho para ajudar os desenvolvedores a criar experiências de pesquisa aumentada em ML e aplicativos generativos de IA sem precisar gerenciar a infraestrutura de banco de dados vetoriais. Os casos de uso de coleções de pesquisa vetorial incluem pesquisas de imagens, pesquisas de documentos, recuperação de músicas, recomendações de produtos, pesquisas de vídeo, pesquisas baseadas em localização, detecção de fraudes e detecção de anomalias.

banco de dados de origem

O Amazon Redshift é o data warehouse em nuvem mais usado. Ele torna simples e econômico analisar todos os seus dados usando SQL padrão com suas ferramentas de business intelligence (BI) atuais. Ele permite que você execute consultas de analytics complexas em terabytes a petabytes de dados estruturados e semiestruturados, usando otimização sofisticada de consultas, armazenamento colunar em armazenamento de alta performance e conclusão maciça de consultas paralelas. A maioria dos resultados é gerada em segundos. Você pode começar aos poucos, por apenas USD 0,25 por hora, sem compromissos, e aumentar a escala horizontalmente para petabytes de dados por USD 1 mil por terabyte por ano, menos de um décimo do custo das soluções on-premises tradicionais.

Amazon Redshift Sem Servidor

O Amazon Redshift sem servidor torna mais fácil executar e escalar analytics sem precisar gerenciar sua infraestrutura de data warehouse. Desenvolvedores, cientistas de dados e analistas podem trabalhar em bancos de dados, data warehouses e data lakes para criar aplicações de relatórios e painéis, realizar analytics quase em tempo real, compartilhar e colaborar em dados e criar e treinar modelos de machine learning (ML). Transforme grandes volumes de dados em insights em segundos. O Amazon Redshift sem servidor provisiona automaticamente e escala de forma inteligente a capacidade do data warehouse para oferecer performance rápida até mesmo às workloads mais exigentes e imprevisíveis, e você paga apenas o que usa. Basta carregar dados e começar a consultar imediatamente no Amazon Redshift Query Editor ou em sua ferramenta de business intelligence (BI) favorita e continuar aproveitando a melhor relação preço/desempenho e os recursos SQL familiares em easy-to-use um ambiente de administração zero.

Quick

O Quick é um serviço de business intelligence (BI) rápido e baseado em nuvem que facilita a entrega de insights para todos em sua organização. QuickSight permite criar e publicar painéis interativos que podem ser acessados a partir de navegadores ou dispositivos móveis. Você pode incorporar painéis às suas aplicações, fornecendo aos seus clientes analytics poderosas de autoatendimento. Pode ser escalado rapidamente para dezenas de milhares de usuários sem nenhum software para instalar, servidores para implantar ou infraestrutura para gerenciar.

AWS Clean Rooms

O AWS Clean Rooms ajuda as empresas e seus parceiros a analisar e colaborar com maior facilidade e segurança em seus conjuntos de dados coletivos, sem compartilhar nem copiar os dados subjacentes uns dos outros. Com isso AWS Clean Rooms, os clientes podem criar uma sala limpa de dados segura em minutos e colaborar com qualquer outra empresa Nuvem AWS para gerar insights exclusivos sobre campanhas publicitárias, decisões de investimento e pesquisa e desenvolvimento.

AWS Data Exchange

O AWS Data Exchange facilita encontrar, assinar e usar dados de terceiros na nuvem. Os provedores de dados qualificados incluem marcas líderes da categoria, como a Reuters, que faz curadoria dos dados de mais de 2,2 milhões de notícias exclusivas por ano em vários idiomas; a Change Healthcare, que processa e anonimiza mais de 14 bilhões de transações de saúde e 1 trilhão de dólares em reivindicações anualmente; a Dun & Bradstreet, que mantém um banco de dados de mais de 330 milhões de registros comerciais globais; e a Foursquare, cujos dados de localização são gerados por 220 milhões de consumidores únicos e incluem mais de 60 milhões de locais comerciais globais.

Depois de assinar um produto de dados, você pode usar a AWS Data Exchange API para carregar dados diretamente no Amazon S3 e depois analisá-los com uma ampla variedade AWS de serviços de análise e ML. Por exemplo, seguradoras imobiliárias podem assinar dados para analisar padrões climáticos históricos a fim de calibrar os requisitos de cobertura de seguro em diferentes regiões geográficas; restaurantes podem assinar dados populacionais e de localização para identificar regiões ideais para expansão; pesquisadores acadêmicos podem realizar estudos sobre mudanças climáticas assinando dados sobre emissões de dióxido de carbono; e profissionais de saúde podem assinar dados agregados de ensaios clínicos históricos para acelerar suas atividades de pesquisa.

Para provedores de dados, AWS Data Exchange facilita o alcance de milhões de AWS clientes que migram para a nuvem, eliminando a necessidade de criar e manter uma infraestrutura para armazenamento, entrega, cobrança e titulação de dados.

AWS Data Pipeline

AWS Data Pipelineé um serviço web que ajuda você a processar e mover dados de forma confiável entre diferentes serviços de AWS computação e armazenamento, bem como fontes de dados locais, em intervalos especificados. Com isso AWS Data Pipeline, você pode acessar regularmente seus dados onde eles estão armazenados, transformá-los e processá-los em grande escala e transferir com eficiência os resultados para serviços da AWS, como Amazon S3, Amazon RDS,Amazon DynamoDB e Amazon EMR.

AWS Data Pipeline ajuda você a criar facilmente cargas de trabalho complexas de processamento de dados que são tolerantes a falhas, repetíveis e altamente disponíveis. Você não precisa se preocupar em garantir a disponibilidade dos recursos, gerenciar dependências entre tarefas, repetir falhas transitórias ou tempos limite em tarefas individuais ou criar um sistema de notificação de falhas. AWS Data Pipeline também permite mover e processar dados que antes estavam trancados em silos de dados locais.

AWS Resolução de entidades

AWS O Entity Resolution é um serviço que ajuda você a combinar e vincular registros relacionados armazenados em vários aplicativos, canais e armazenamentos de dados sem criar uma solução personalizada. Usando técnicas flexíveis e configuráveis de ML e baseadas em regras, a AWS Entity Resolution pode remover registros duplicados, criar perfis de clientes conectando diferentes interações com clientes e personalizar experiências em campanhas de publicidade e marketing, programas de fidelidade e comércio eletrônico. Por exemplo, você pode criar uma visão unificada das interações com os clientes vinculando eventos recentes, como cliques em anúncios, abandono de carrinho e compras, a um ID de correspondência exclusiva.

AWS Glue

O AWS Glue é um serviço para extração, transformação e carregamento (ETL) totalmente gerenciado que facilita para os clientes preparar e carregar os dados para analytics. Você pode criar e executar um trabalho de ETL com alguns cliques no Console de gerenciamento da AWS. Você simplesmente aponta AWS Glue para seus dados armazenados AWS, AWS Glue descobre seus dados e armazena os metadados associados (como definição de tabela e esquema) no. AWS Glue Data Catalog Depois de catalogados, seus dados se tornarão imediatamente pesquisáveis, consultáveis e disponíveis para ETL.

AWS Glue Os mecanismos de integração de dados fornecem acesso aos dados usando Apache PySpark, Spark e Python. Com a adição do AWS Glue for Ray, você pode escalar ainda mais suas cargas de trabalho usando o Ray, uma estrutura computacional unificada de código aberto.

AWS Glue A qualidade de dados pode medir e monitorar a qualidade dos dados de data lakes, data warehouses e outros repositórios de dados baseados no Amazon S3. Ele calcula estatísticas automaticamente, recomenda regras de qualidade e pode monitorar e alertar você quando detecta dados perdidos, obsoletos ou incorretos. Você pode acessá-lo nas AWS Glue Data Catalog e nas tarefas de AWS Glue Data Catalog ETL.

AWS Lake Formation

O AWS Lake Formation é um serviço que facilita configurar um data lake seguro em dias. Um data lake é um repositório centralizado, controlado e seguro que armazena todos os dados, tanto em sua forma original quanto preparados para análise. Um data lake permite que você desfaça monopólios de dados e combine diferentes tipos de análises para obter insights e orientar decisões de negócios melhores.

No entanto, configurar e gerenciar data lakes atualmente envolve muitas tarefas manuais, complicadas e demoradas. Esse trabalho inclui carregar dados de diversas fontes, monitorar esses fluxos de dados, configurar partições, ativar a criptografia e gerenciar chaves, definir tarefas de transformação e monitorar sua operação, reorganizar dados em um formato colunar, definir configurações de controle de acesso, desduplicar dados redundantes, combinar registros vinculados, conceder acesso a conjuntos de dados e auditar o acesso ao longo do tempo.

Criar um data lake com o Lake Formation é tão simples quanto definir onde seus dados residem e quais políticas de segurança e acesso a dados você deseja aplicar. O Lake Formation então coleta e cataloga dados de bancos de dados e armazenamento de objetos, migra os dados para o novo data lake do Amazon S3, limpa e classifica os dados usando algoritmos de ML e protege o acesso aos dados sensíveis. Seus usuários podem então acessar um catálogo centralizado de dados que descreve os conjuntos de dados disponíveis e o uso adequado. Seus usuários então aproveitam esses conjuntos de dados com sua escolha de serviços de análise e ML, como Amazon EMR para Apache Spark, Amazon Redshift, Amazon Athena, AI e Quick. SageMaker

Amazon Managed Streaming for Apache Kafka (Amazon MSK)

O Amazon Managed Streaming for Apache Kafka (Amazon MSK) é um serviço totalmente gerenciado que ajuda você a criar e executar aplicações que usam o Apache Kafka para processar dados de streaming. O Apache Kafka é uma plataforma de código aberto para criar pipelines e aplicações de dados de streaming em tempo real. Com o Amazon MSK, você pode usar o Apache Kafka APIs para preencher lagos de dados, transmitir alterações de e para bancos de dados e potencializar aplicativos de ML e análise.

Os clusters do Apache Kafka são difíceis de configurar, escalar e gerenciar na produção. Ao executar o Apache Kafka por conta própria, você precisa provisionar servidores, configurar o Apache Kafka manualmente, substituir os servidores quando eles falham, orquestrar patches e atualizações do servidor, arquitetar o cluster para ter alta disponibilidade, garantir que os dados sejam armazenados e protegidos de forma durável, configurar o monitoramento e os alarmes e planejar cuidadosamente os eventos de escalabilidade para comportar as alterações de carga. O Amazon MSK facilita a criação e a execução de aplicações de produção no Apache Kafka sem precisar da experiência em gerenciamento de infraestrutura do Apache Kafka. Isso significa que você gasta menos tempo gerenciando a infraestrutura e mais tempo criando aplicações.

Com alguns cliques no console do Amazon MSK, você pode criar clusters do Apache Kafka altamente disponíveis com definições e configurações baseadas nas práticas recomendadas de implantação do Apache Kafka. O Amazon MSK provisiona e executa automaticamente seus clusters do Apache Kafka. O Amazon MSK monitora continuamente a integridade do cluster e substitui automaticamente os nós não íntegros sem tempo de inatividade da sua aplicação. Além disso, o Amazon MSK protege seu cluster do Apache Kafka criptografando dados em repouso.