AWS Analytics category icon分析 - Amazon Web Services 概述

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Analytics category icon分析

AWS 提供一套全面的分析服务,可满足您的所有数据分析需求,使各种规模和行业的组织都能利用数据重塑业务。从存储和管理、数据治理、操作和体验, AWS 提供专门构建的服务,提供最佳的性价比、可扩展性和最低的成本。

示意图后面有每项服务的描述。要帮助您决定哪种服务最能满足您的需求,请参阅选择 AWS 分析服务。有关一般信息,请参阅 AWS上的分析

显示 AWS 分析服务的图表

返回 AWS 服务

Amazon Athena

Amazon Athena 是一种交互式查询服务,方便使用标准 SQL 分析 Amazon S3 的数据。Athena 没有服务器,没有要管理的基础设施,只需为运行的查询付费。

Athena 易于使用。只需指向 Amazon S3 中的数据,定义架构,即可使用标准 SQL 开始查询。大多数结果会在几秒钟内传送给您。使用 Athena,无需执行复杂的提取、转换、加载(ETL)作业,便可准备好用于分析的数据。这样一来,任何具备 SQL 技能的人员都可以轻松快速分析大规模数据集。

Athena out-of-the-box AWS Glue Data Catalog与集成,允许您跨各种服务创建统一的元数据存储库,抓取数据源以发现架构,使用新的和修改过的表和分区定义填充您的目录,以及维护架构版本控制。

Amazon CloudSearch

Amazon CloudSearch 是一项托管服务 AWS Cloud ,可让您以简单且经济实惠的方式为您的网站或应用程序设置、管理和扩展搜索解决方案。Amazon CloudSearch 支持 34 种语言和常用搜索功能,例如突出显示、自动完成和地理空间搜索。

Amazon DataZone

Amazon DataZone 是一项数据管理服务,您可以使用它来发布数据,并通过您的个性化 Web 应用程序将其提供给业务数据目录。无论数据存储在何处,无论存储在何处(在本地还是 Salesforce AWS等 SaaS 应用程序)中,您都可以更安全地访问数据。亚马逊 DataZone 简化了您在亚马逊 Redshift、Amazon A AWS Glue thena、和 Quick 等 AWS 服务上的体验。 AWS Lake Formation

Amazon EMR

亚马逊 EMR 是业界领先的云大数据平台,用于使用 A pache Spark、Apache Hive、Apache Flink、Apache Flin k、Apache H udi 和 P HBase resto 等开源工具处理大量数据。Amazon EMR 通过自动执行耗时的任务(如预置容量和调整集群),让您轻松设置、操作和扩展大数据环境。借助 Amazon EMR,您能够以不到传统本地解决方案一半的成本运行 PB 级分析,速度比标准 Apache Spark 快 3 倍以上。您可以在 Amazon EC2 实例、Amazon Elastic Kubernetes Service(Amazon EKS)集群上运行工作负载,或在 AWS Outposts上使用 Amazon EMR 在本地运行工作负载。

Amazon FinSpace

Amazon FinSpace是一项专为金融服务行业 (FSI) 构建的数据管理和分析服务。 FinSpace 将查找和准备数 PB 的财务数据以准备分析所花费的时间从几个月缩短到几分钟。

金融服务组织分析来自内部数据存储的数据(例如投资组合、精算和风险管理系统),以及来自第三方数据源的 PB 级数据(例如证券交易所的历史证券价格)。要找到准确的数据,获得以合规方式访问数据的权限并做好分析准备,可能需要花费数月时间。

FinSpace 消除了构建和维护用于财务分析的数据管理系统的繁重工作。使用 FinSpace,您可以收集数据并按资产类别、风险分类或地理区域等相关业务概念对其进行分类。 FinSpace 可以根据您的合规性要求在整个组织中轻松发现和共享数据。您可以在一个地方定义数据访问策略并 FinSpace 强制执行这些策略,同时保留审计日志,以便进行合规性和活动报告。 FinSpace 还包括一个包含 100 多个函数的库,例如时间条和布林带,供您准备数据以供分析。

Amazon Kinesis

Amazon Kinesis 可让您轻松收集、处理和分析实时流数据,以便您及时获得见解并对新信息快速做出响应。Amazon Kinesis 提供用于经济高效地处理任何规模的流数据的关键功能,以及选择最适合您应用程序要求的工具的灵活性。借助 Amazon Kinesis,您可以摄取视频、音频、应用程序日志、网站点击流等实时数据,也可摄取用于机器学习(ML)、分析和其他应用程序的 IoT 遥测数据。Amazon Kinesis 使您能够在数据到达时对其进行处理和分析,并立即做出响应,而不必等到收集完所有数据后再开始处理。

Amazon Kinesis 目前提供以下四种服务:Firehose、Managed Service for Apache Flink、Kinesis Data Streams 和 Kinesis Video Streams。

Amazon Data Firehose

Amazon Data Firehose 是将流数据可靠地加载到数据存储和分析工具中最简便的方法。它可以捕获、转换流数据并将其加载到 Amazon S3、Amazon Redshift、Amazon S OpenSearch ervice 和 Splunk 中,从而使用你目前已经在使用的现有商业智能工具和仪表板实现近乎实时的分析。它是一项完全托管的服务,可自动扩展以满足数据吞吐量要求,并且无需进行日常管理。此外,它还可以在加载数据前对数据进行批处理、压缩、转换和加密,从而尽可能地减少在目标位置占用的存储量,同时提高安全性。

您可以轻松地从中创建 Firehose 交付流 AWS 管理控制台,只需单击几下即可对其进行配置,然后开始将来自成千上万个数据源的数据发送到该流,以便持续加载到该流, AWS所有这些都只需几分钟即可完成。您还可以将传输流配置为在传入的数据传输到 Amazon S3 之前自动将该数据转换为列式格式,例如 Apache Parquet 和 Apache ORC,以实现经济高效的存储和分析。

适用于 Apache Flink 的亚马逊托管服务

适用于 Apache Flink 的亚马逊托管服务是分析流数据、获得切实可行的见解以及实时响应业务和客户需求的最简单方法。适用于 Apache Flink 的 Amazon 托管服务降低了构建、管理流应用程序以及将流媒体应用程序与其他 AWS 服务集成的复杂性。SQL 用户可以使用模板和交互式 SQL 编辑器,轻松查询流数据或构建整个流应用程序。Java 开发人员可以使用开源 Java 库和 AWS 集成,快速构建复杂的流应用程序,以实时转换和分析数据。

适用于 Apache Flink 的亚马逊托管服务负责处理持续运行查询所需的一切,并自动扩展以匹配传入数据的数量和吞吐量。

Amazon Kinesis Data Streams

Amazon Kinesis Data Streams 是一项具有极高扩展性且持续的实时数据流服务。Kinesis Data Streams 每秒可从数十万种源中连续捕获数 GB 数据,如网站点击流、数据库事件流、财务交易、社交媒体源、IT 日志和定位追踪事件。收集的数据可在几毫秒内获得,以实现实时分析使用案例,例如实时控制面板、实时异常检测、动态定价等。

Amazon Kinesis Video Streams

Amazon Kinesis V ideo Streams 可以轻松安全地将视频从联网设备流式传输 AWS 到分析、机器学习、播放和其他处理。Kinesis Video Streams 可自动预置和弹性扩展从数百万台设备摄取流视频数据所需的所有基础设施。它还可以持久地存储、加密和索引直播中的视频数据,并允许您通过访问数据。 easy-to-use APIsKinesis Video Streams 使您能够播放用于直播和点播观看的视频,并通过与 Amazon Rekognition Video 以及 Apache 和 OpenCV MxNet 等 TensorFlow机器学习框架的库集成,快速构建利用计算机视觉和视频分析的应用程序。

亚马逊 OpenSearch 服务

Amazon Service( OpenSearch OpenSearch 服务)可以轻松部署、保护、操作和扩展, OpenSearch 以便实时搜索、分析和可视化数据。借助 Amazon S OpenSearch ervice,您可以获得 easy-to-use APIs 实时分析功能,为日志分析、全文搜索、应用程序监控和点击流分析等用例提供支持,并具有企业级可用性、可扩展性和安全性。该服务提供与开源工具(例如 OpenSearch 仪表板和 Logstash)的集成,用于数据摄取和可视化。它还与其他 AWS 服务无缝集成,例如亚马逊虚拟私有云(Amazon VPC)、AWS Key Management Service(AWS KMS)、A mazon Data Firehose AWS LambdaAWS Identity and Access Management (IAM)、A mazon Cognito CloudWatch亚马逊,因此您可以快速从原始数据转化为可操作的见解。

Amazon OpenSearch 无服务器

Amazon OpenSearch Serv erless 是亚马逊 OpenSearch 服务中的一个无服务器选项。作为开发人员,您可以使用 OpenSearch Serverless 运行 PB 级工作负载,而无需配置、管理和扩展集群。 OpenSearch 借助无服务器环境的简单性,您可以获得与 S OpenSearch ervice 相同的交互式毫秒响应时间。

Amazon OpenSearch Serverless 的矢量引擎增加了简单、可扩展且高性能的矢量存储和搜索功能,可帮助开发人员构建 ML 增强搜索体验和生成式 AI 应用程序,而无需管理矢量数据库基础架构。向量搜索集合的使用案例包括图像搜索、文档搜索、音乐检索、产品推荐、视频搜索、基于位置的搜索、欺诈检测和异常检测。

Amazon Redshift

Amazon Redshift 是使用最广泛的云数据仓库。借助它,您可使用标准 SQL 与您现有的商业情报(BI)工具,快速简单、经济高效地分析所有数据。它允许您使用复杂的查询优化、高性能存储上的列式存储以及大规模并行查询完成,对数 TB 到 PB 的结构化和半结构化数据运行复杂的分析查询。大多数结果会在几秒钟内返回。您可以从小规模起步,每小时只需 0.25 美元,无需任何承诺,然后以每年每 TB 1000 美元的价格横向扩展到 PB 级数据,其成本不到传统本地解决方案的 1/10。

Amazon Redshift Serverless

借助 Amazon Redshift Serverless,无需管理数据仓库基础设施,即可更轻松地运行和扩展分析。开发人员、数据科学家和分析师可以跨数据库、数据仓库与数据湖来构建报告和控制面板应用程序,执行近乎实时的分析,共享和协作处理数据,并构建和训练机器学习(ML)模型。可在几秒钟内将大量数据转化为见解。Amazon Redshift Serverless 自动预置资源,并智能地扩展数据仓库容量,即使面对要求严苛且不可预测的工作负载也能提供高速性能,而且您只需为所用的资源付费即可。只需在 Amazon Redshift 查询编辑器或您最喜欢的商业智能 (BI) 工具中加载数据并立即开始查询,即可在零管理的环境中继续享受最佳性价比和熟悉的 SQL 功能。 easy-to-use

Quick

Quick 是一项快速、基于云的商业智能 (BI) 服务,可让您轻松地向组织中的每个人提供见解。 QuickSight 允许您创建和发布可通过浏览器或移动设备访问的交互式仪表板。您可以将控制面板嵌入到应用程序中,为客户提供强大的自助服务分析。Quick 无需安装任何软件、部署服务器或管理基础架构,即可轻松扩展到成千上万的用户。

AWS Clean Rooms

AWS Clean Rooms 帮助公司及其合作伙伴更轻松、更安全地对其集体数据集进行分析和协作,而无需共享或复制彼此的底层数据。借 AWS Clean Rooms助,客户可以在几分钟内创建一个安全的数据整理室,并与任何其他公司合作,生成有关广告活动、投资决策和研发的独特见解。 AWS Cloud

AWS Data Exchange

AWS Data Exchange 让您能够在云中轻松查找、订阅和使用第三方数据。符合条件的数据提供商包括行业领先品牌,如 Reuters,每年以多种语言从超过 220 万个独立新闻报道中整理数据;Change Healthcare,每年处理和匿名处理超过 140 亿笔医疗保健交易和价值 1 万亿美元的索赔;Dun & Bradstreet,维护着超过 3.3 亿份全球商业记录的数据库;以及 Foursquare,其位置数据来自 2.2 亿名独立消费者,包括超过 6000 万个全球商业场所。

订阅数据产品后,您可以使用 AWS Data Exchange API 将数据直接加载到 Amazon S3 中,然后使用各种分析和机器学习服务对其进行 AWS 分析。例如,财产保险公司可以订阅数据来分析历史天气模式,以校准不同地区的保险范围要求;餐馆可以订阅人口和位置数据来确定扩张的最佳区域;学术研究人员可以通过订阅二氧化碳排放数据来开展气候变化研究;医疗保健专业人员可以订阅历史临床试验的汇总数据以加快研究活动。

对于数据提供商而言, AWS Data Exchange 无需构建和维护用于数据存储、交付、计费和授权的基础架构,从而轻松接触迁移到云端的数百万 AWS 客户。

AWS Data Pipeline

AWS Data Pipeline是一项 Web 服务,可帮助您以指定的时间间隔在不同的 AWS 计算和存储服务以及本地数据源之间可靠地处理和移动数据。借助 AWS Data Pipeline,您可以定期访问存储数据、大规模转换和处理数据,并将结果高效地传输到AWS服务,例如Amazon S3、Amazon RDS 、AmazonDynamoDB和Amazon EM R。

AWS Data Pipeline 帮助您轻松创建容错、可重复且高度可用的复杂数据处理工作负载。您不必担心确保资源可用性、管理任务间依赖关系、重试单个任务中的临时故障或超时,或者创建失败通知系统。 AWS Data Pipeline 还允许您移动和处理以前锁定在本地数据孤岛中的数据。

AWS 实体分辨率

AWS E@@ ntity Resolut ion 是一项服务,可帮助您匹配和链接存储在多个应用程序、渠道和数据存储中的相关记录,而无需构建自定义解决方案。使用灵活、可配置的机器学习和基于规则的技术,Ent AWS ity Resolution可以删除重复的记录,通过关联不同的客户互动来创建客户档案,并在广告和营销活动、忠诚度计划和电子商务中个性化体验。例如,您可以将最新事件(例如广告点击、购物车放弃和购买)关联到一个唯一的匹配 ID,从而创建统一的客户交互视图。

AWS Glue

AWS Glue 是完全托管式提取、转换、加载(ETL)服务,可让客户轻松准备和加载数据以进行分析。只需在 AWS 管理控制台中点击几下,即可创建和运行 ETL 作业。您只需指 AWS Glue 向存储在中的数据 AWS,即可 AWS Glue 发现您的数据并将关联的元数据(例如表定义和架构)存储在中 AWS Glue Data Catalog。分类后,数据可立即变得可搜索、可查询和可用于 ETL。

AWS Glue 数据集成引擎使用 Apache Spark 和 Python 提供对数据的访问。 PySpark新增 f AWS Glue or Ray 后,您可以使用开源统一计算框架 Ray 进一步扩展工作负载。

AWS Glue 数据质量可以衡量和监控基于 Amazon S3 的数据湖、数据仓库和其他数据存储库的数据质量。它可自动计算统计数据,推荐质量规则,且可在检测到数据丢失、陈旧或不良数据时进行监控并提醒您。你可以在 AWS Glue Data Catalog 和在 AWS Glue Data Catalog ETL 作业中访问它。

AWS Lake Formation

AWS Lake Formation 是一项服务,便于您在短短几天内轻松地设置安全数据湖。数据湖是一种集中的、策管的、安全存储库,用于存储所有数据,包括原始形式和准备进行分析的形式。数据湖能够打破数据孤岛,将不同类型的分析结合起来,获得信息并指导更好的业务决策。

然而,如今设置和管理数据湖涉及大量手动、复杂且耗时的任务。这类工作包括:加载来自不同源的数据、监控这些数据流、设置分区、启用加密并管理密钥、定义转换作业并监控其操作、将数据重组为列式格式、配置访问控制设置、删除重复的冗余数据、匹配链接记录、授予对数据集的访问权限,以及随着时间推移审计访问权限。

使用 Lake Formation 创建数据湖非常简单,只需定义数据的驻留位置以及要应用的数据访问和安全策略即可。然后,Lake Formation 会从数据库与对象存储中收集和编目数据,将数据移动到新的 Amazon S3 数据湖,使用 ML 算法清理和分类数据,安全访问敏感数据。接着,您的用户便可访问集中的数据目录,该目录描述了可用数据集及其适当用法。然后,您的用户将这些数据集与他们选择的分析和机器学习服务结合起来,例如适用于 Apache Spark 的 Amazon EMR、Amazon Redshift、Amazon Athena、AI 和 Quick。 SageMaker

Amazon Managed Streaming for Apache Kafka (Amazon MSK)

Amazon Managed Streaming for Apache Kafka(Amazon MSK)是一项完全托管式服务,可让您轻松构建和运行使用 Apache Kafka 来处理流数据的应用程序。Apache Kafka 是一种开源平台,用于构建实时流数据管道和应用程序。借助 Amazon MSK,您可以使用 Apache Kafka APIs 填充数据湖、将更改流入和流出数据库,以及为机器学习和分析应用程序提供支持。

在生产环境中,Apache Kafka 集群的设置、扩展和管理都颇具挑战性。当您自行运行 Apache Kafka 时,您需要预置服务器,手动配置 Apache Kafka,在服务器出现故障时将其更换掉,编排服务器补丁和升级,构建集群以实现高可用性,确保数据的持久存储和安全,设置监控和警报,并仔细规划扩展事件以支持负载更改。借助 Amazon MSK,您可以轻松地在 Apache Kafka 上构建和运行生产应用程序,而无需 Apache Kafka 基础设施管理方面的专业知识。这意味着,您可以减少基础设施管理时间,而将更多时间花在构建应用程序上。

只需在 Amazon MSK 控制台中点击几下,即可创建高度可用的 Apache Kafka 集群,其设置和配置基于 Apache Kafka 的部署最佳实践。Amazon MSK 会自动预置和运行您的 Apache Kafka 集群。Amazon MSK 会持续监控集群运行状况,并自动替换运行状况不佳的节点,而不会使您的应用程序停机。此外,Amazon MSK 还通过加密静态数据来确保 Apache Kafka 集群的安全。

返回 AWS 服务